From 075eb52c48cf17edbb718134b1bbd31a43af2aa6 Mon Sep 17 00:00:00 2001
From: yxdyc <yxdyc@users.noreply.github.com>
Date: Thu, 26 Dec 2024 06:57:40 +0000
Subject: [PATCH] deploy: 7d5f37d6f7d5c41d135c7ff28ca5330c85cbbfec

---
 .buildinfo                                    |    4 +-
 _modules/data_juicer.html                     |   22 +-
 _modules/data_juicer/analysis/collector.html  |  188 +
 .../analysis/column_wise_analysis.html        |   39 +-
 .../analysis/diversity_analysis.html          |   45 +-
 _modules/data_juicer/analysis/draw.html       |  154 +
 _modules/data_juicer/analysis/measure.html    |  372 ++
 .../analysis/overall_analysis.html            |   30 +-
 _modules/data_juicer/config/config.html       |   77 +-
 _modules/data_juicer/core/adapter.html        |   40 +-
 _modules/data_juicer/core/analyzer.html       |   28 +-
 _modules/data_juicer/core/data.html           |   99 +-
 _modules/data_juicer/core/executor.html       |   30 +-
 _modules/data_juicer/core/exporter.html       |   36 +-
 _modules/data_juicer/core/monitor.html        |   43 +-
 _modules/data_juicer/core/ray_data.html       |  411 ++
 _modules/data_juicer/core/ray_executor.html   |  210 +
 _modules/data_juicer/core/tracer.html         |   34 +-
 .../data_juicer/format/csv_formatter.html     |   26 +-
 .../data_juicer/format/empty_formatter.html   |   34 +-
 _modules/data_juicer/format/formatter.html    |   57 +-
 .../data_juicer/format/json_formatter.html    |   26 +-
 _modules/data_juicer/format/load.html         |   24 +-
 .../data_juicer/format/mixture_formatter.html |   30 +-
 .../data_juicer/format/parquet_formatter.html |   26 +-
 .../data_juicer/format/text_formatter.html    |   38 +-
 .../data_juicer/format/tsv_formatter.html     |   26 +-
 .../entity_attribute_aggregator.html          |   32 +-
 .../most_relavant_entities_aggregator.html    |   32 +-
 .../ops/aggregator/nested_aggregator.html     |   32 +-
 _modules/data_juicer/ops/base_op.html         |  153 +-
 .../data_juicer/ops/common/helper_func.html   |   58 +-
 .../deduplicator/document_deduplicator.html   |   30 +-
 .../document_minhash_deduplicator.html        |   40 +-
 .../document_simhash_deduplicator.html        |   30 +-
 .../ops/deduplicator/image_deduplicator.html  |   35 +-
 .../deduplicator/ray_basic_deduplicator.html  |   32 +-
 .../ray_document_deduplicator.html            |   28 +-
 .../deduplicator/ray_image_deduplicator.html  |   33 +-
 .../deduplicator/ray_video_deduplicator.html  |   28 +-
 .../ops/deduplicator/video_deduplicator.html  |   30 +-
 .../ops/filter/alphanumeric_filter.html       |   30 +-
 .../ops/filter/audio_duration_filter.html     |   30 +-
 .../ops/filter/audio_nmf_snr_filter.html      |   40 +-
 .../ops/filter/audio_size_filter.html         |   30 +-
 .../filter/average_line_length_filter.html    |   30 +-
 .../filter/character_repetition_filter.html   |   30 +-
 .../ops/filter/flagged_words_filter.html      |   30 +-
 .../ops/filter/image_aesthetics_filter.html   |   30 +-
 .../ops/filter/image_aspect_ratio_filter.html |   30 +-
 .../ops/filter/image_face_count_filter.html   |   30 +-
 .../ops/filter/image_face_ratio_filter.html   |   30 +-
 .../ops/filter/image_nsfw_filter.html         |   30 +-
 .../filter/image_pair_similarity_filter.html  |   30 +-
 .../ops/filter/image_shape_filter.html        |   30 +-
 .../ops/filter/image_size_filter.html         |   30 +-
 .../filter/image_text_matching_filter.html    |   30 +-
 .../filter/image_text_similarity_filter.html  |   30 +-
 .../ops/filter/image_watermark_filter.html    |   30 +-
 .../ops/filter/language_id_score_filter.html  |   30 +-
 .../filter/maximum_line_length_filter.html    |   30 +-
 .../ops/filter/perplexity_filter.html         |   30 +-
 .../phrase_grounding_recall_filter.html       |   45 +-
 .../ops/filter/special_characters_filter.html |   30 +-
 .../ops/filter/specified_field_filter.html    |   30 +-
 .../specified_numeric_field_filter.html       |   35 +-
 .../ops/filter/stopwords_filter.html          |   30 +-
 .../data_juicer/ops/filter/suffix_filter.html |   30 +-
 .../ops/filter/text_action_filter.html        |   30 +-
 .../filter/text_entity_dependency_filter.html |   30 +-
 .../ops/filter/text_length_filter.html        |   30 +-
 .../ops/filter/token_num_filter.html          |   30 +-
 .../ops/filter/video_aesthetics_filter.html   |   30 +-
 .../ops/filter/video_aspect_ratio_filter.html |   30 +-
 .../ops/filter/video_duration_filter.html     |   30 +-
 .../video_frames_text_similarity_filter.html  |   30 +-
 .../ops/filter/video_motion_score_filter.html |   39 +-
 .../video_motion_score_raft_filter.html       |   30 +-
 .../ops/filter/video_nsfw_filter.html         |   30 +-
 .../filter/video_ocr_area_ratio_filter.html   |   37 +-
 .../ops/filter/video_resolution_filter.html   |   30 +-
 .../video_tagging_from_frames_filter.html     |   30 +-
 .../ops/filter/video_watermark_filter.html    |   30 +-
 .../ops/filter/word_repetition_filter.html    |   30 +-
 .../ops/filter/words_num_filter.html          |   30 +-
 .../ops/grouper/key_value_grouper.html        |   28 +-
 .../ops/grouper/naive_grouper.html            |   28 +-
 _modules/data_juicer/ops/load.html            |   24 +-
 .../mapper/audio_ffmpeg_wrapped_mapper.html   |   28 +-
 .../ops/mapper/calibrate_qa_mapper.html       |   32 +-
 .../ops/mapper/calibrate_query_mapper.html    |   26 +-
 .../ops/mapper/calibrate_response_mapper.html |   26 +-
 .../ops/mapper/chinese_convert_mapper.html    |   33 +-
 .../ops/mapper/clean_copyright_mapper.html    |   28 +-
 .../ops/mapper/clean_email_mapper.html        |   28 +-
 .../ops/mapper/clean_html_mapper.html         |   28 +-
 .../ops/mapper/clean_ip_mapper.html           |   28 +-
 .../ops/mapper/clean_links_mapper.html        |   28 +-
 .../ops/mapper/expand_macro_mapper.html       |   28 +-
 .../extract_entity_attribute_mapper.html      |   30 +-
 .../extract_entity_relation_mapper.html       |   34 +-
 .../ops/mapper/extract_event_mapper.html      |   30 +-
 .../ops/mapper/extract_keyword_mapper.html    |   30 +-
 .../ops/mapper/extract_nickname_mapper.html   |   30 +-
 .../mapper/extract_support_text_mapper.html   |   28 +-
 .../ops/mapper/fix_unicode_mapper.html        |   28 +-
 .../generate_qa_from_examples_mapper.html     |   32 +-
 .../mapper/generate_qa_from_text_mapper.html  |   30 +-
 .../ops/mapper/image_blur_mapper.html         |   28 +-
 .../image_captioning_from_gpt4v_mapper.html   |   33 +-
 .../ops/mapper/image_captioning_mapper.html   |   28 +-
 .../ops/mapper/image_diffusion_mapper.html    |   28 +-
 .../ops/mapper/image_face_blur_mapper.html    |   28 +-
 .../ops/mapper/image_tagging_mapper.html      |   28 +-
 .../ops/mapper/nlpaug_en_mapper.html          |   28 +-
 .../ops/mapper/nlpcda_zh_mapper.html          |   28 +-
 .../ops/mapper/optimize_qa_mapper.html        |   32 +-
 .../ops/mapper/optimize_query_mapper.html     |   26 +-
 .../ops/mapper/optimize_response_mapper.html  |   26 +-
 .../ops/mapper/pair_preference_mapper.html    |   32 +-
 .../punctuation_normalization_mapper.html     |   28 +-
 .../ops/mapper/python_file_mapper.html        |   30 +-
 .../ops/mapper/python_lambda_mapper.html      |   30 +-
 .../ops/mapper/relation_identity_mapper.html  |   30 +-
 .../mapper/remove_bibliography_mapper.html    |   28 +-
 .../ops/mapper/remove_comments_mapper.html    |   28 +-
 .../ops/mapper/remove_header_mapper.html      |   28 +-
 .../ops/mapper/remove_long_words_mapper.html  |   30 +-
 .../remove_non_chinese_character_mapper.html  |   28 +-
 .../remove_repeat_sentences_mapper.html       |   33 +-
 .../mapper/remove_specific_chars_mapper.html  |   28 +-
 .../ops/mapper/remove_table_text_mapper.html  |   28 +-
 ...ords_with_incorrect_substrings_mapper.html |   30 +-
 .../ops/mapper/replace_content_mapper.html    |   28 +-
 .../ops/mapper/sentence_split_mapper.html     |   28 +-
 .../ops/mapper/text_chunk_mapper.html         |   32 +-
 .../video_captioning_from_audio_mapper.html   |   28 +-
 .../video_captioning_from_frames_mapper.html  |   28 +-
 ...deo_captioning_from_summarizer_mapper.html |   28 +-
 .../video_captioning_from_video_mapper.html   |   28 +-
 .../mapper/video_extract_frames_mapper.html   |   28 +-
 .../ops/mapper/video_face_blur_mapper.html    |   28 +-
 .../mapper/video_ffmpeg_wrapped_mapper.html   |   28 +-
 .../mapper/video_remove_watermark_mapper.html |   28 +-
 .../video_resize_aspect_ratio_mapper.html     |   33 +-
 .../video_resize_resolution_mapper.html       |   28 +-
 .../video_split_by_duration_mapper.html       |   35 +-
 .../video_split_by_key_frame_mapper.html      |   35 +-
 .../mapper/video_split_by_scene_mapper.html   |   33 +-
 .../video_tagging_from_audio_mapper.html      |   28 +-
 .../video_tagging_from_frames_mapper.html     |   28 +-
 .../whitespace_normalization_mapper.html      |   28 +-
 _modules/data_juicer/ops/op_fusion.html       |  332 ++
 .../frequency_specified_field_selector.html   |   28 +-
 .../ops/selector/random_selector.html         |   28 +-
 .../range_specified_field_selector.html       |   28 +-
 .../topk_specified_field_selector.html        |   28 +-
 _modules/data_juicer/utils/asset_utils.html   |  170 +
 .../data_juicer/utils/auto_install_utils.html |  221 +
 _modules/data_juicer/utils/cache_utils.html   |  188 +
 _modules/data_juicer/utils/ckpt_utils.html    |  270 +
 _modules/data_juicer/utils/common_utils.html  |  277 +
 _modules/data_juicer/utils/compress.html      |  690 +++
 _modules/data_juicer/utils/constant.html      |  399 ++
 _modules/data_juicer/utils/file_utils.html    |  345 ++
 .../data_juicer/utils/fingerprint_utils.html  |  281 +
 _modules/data_juicer/utils/lazy_loader.html   |  184 +
 _modules/data_juicer/utils/logger_utils.html  |  307 ++
 _modules/data_juicer/utils/mm_utils.html      | 1165 ++++
 _modules/data_juicer/utils/model_utils.html   |  982 ++++
 _modules/data_juicer/utils/process_utils.html |  237 +
 _modules/data_juicer/utils/registry.html      |  258 +
 .../data_juicer/utils/resource_utils.html     |  173 +
 .../data_juicer/utils/unittest_utils.html     |  263 +
 _modules/index.html                           |   47 +-
 _sources/data_juicer.analysis.rst.txt         |   60 +-
 _sources/data_juicer.config.rst.txt           |   20 +-
 _sources/data_juicer.core.rst.txt             |   84 +-
 _sources/data_juicer.format.rst.txt           |   84 +-
 _sources/data_juicer.ops.aggregator.rst.txt   |   36 +-
 _sources/data_juicer.ops.common.rst.txt       |   28 +-
 _sources/data_juicer.ops.deduplicator.rst.txt |   84 +-
 _sources/data_juicer.ops.filter.rst.txt       |  364 +-
 _sources/data_juicer.ops.grouper.rst.txt      |   28 +-
 _sources/data_juicer.ops.mapper.rst.txt       |  524 +-
 _sources/data_juicer.ops.rst.txt              |   50 +-
 _sources/data_juicer.ops.selector.rst.txt     |   44 +-
 _sources/data_juicer.rst.txt                  |   23 +-
 _sources/data_juicer.tools.rst.txt            |    9 +-
 _sources/data_juicer.utils.rst.txt            |  164 +-
 _static/basic.css                             |   15 +-
 _static/doctools.js                           |    7 +
 _static/language_data.js                      |    7 +
 _static/searchtools.js                        |   38 +-
 data_juicer.analysis.html                     |  523 +-
 data_juicer.config.html                       |  216 +-
 data_juicer.core.html                         | 1012 +++-
 data_juicer.format.html                       |  616 ++-
 data_juicer.html                              | 1208 +++-
 data_juicer.ops.aggregator.html               |  330 +-
 data_juicer.ops.common.html                   |  247 +-
 data_juicer.ops.deduplicator.html             |  609 +-
 data_juicer.ops.filter.html                   | 3044 +++++++++-
 data_juicer.ops.grouper.html                  |  139 +-
 data_juicer.ops.html                          | 2675 ++++++++-
 data_juicer.ops.mapper.html                   | 3666 +++++++++++-
 data_juicer.ops.selector.html                 |  280 +-
 data_juicer.tools.html                        |   33 +-
 data_juicer.utils.html                        | 2331 +++++++-
 genindex.html                                 | 4891 +++++++++++++++--
 index.html                                    |  381 +-
 modules.html                                  |  116 +-
 objects.inv                                   |  Bin 7512 -> 16752 bytes
 py-modindex.html                              |  907 ++-
 search.html                                   |   22 +-
 searchindex.js                                |    2 +-
 216 files changed, 34296 insertions(+), 3579 deletions(-)
 create mode 100644 _modules/data_juicer/analysis/collector.html
 create mode 100644 _modules/data_juicer/analysis/draw.html
 create mode 100644 _modules/data_juicer/analysis/measure.html
 create mode 100644 _modules/data_juicer/core/ray_data.html
 create mode 100644 _modules/data_juicer/core/ray_executor.html
 create mode 100644 _modules/data_juicer/ops/op_fusion.html
 create mode 100644 _modules/data_juicer/utils/asset_utils.html
 create mode 100644 _modules/data_juicer/utils/auto_install_utils.html
 create mode 100644 _modules/data_juicer/utils/cache_utils.html
 create mode 100644 _modules/data_juicer/utils/ckpt_utils.html
 create mode 100644 _modules/data_juicer/utils/common_utils.html
 create mode 100644 _modules/data_juicer/utils/compress.html
 create mode 100644 _modules/data_juicer/utils/constant.html
 create mode 100644 _modules/data_juicer/utils/file_utils.html
 create mode 100644 _modules/data_juicer/utils/fingerprint_utils.html
 create mode 100644 _modules/data_juicer/utils/lazy_loader.html
 create mode 100644 _modules/data_juicer/utils/logger_utils.html
 create mode 100644 _modules/data_juicer/utils/mm_utils.html
 create mode 100644 _modules/data_juicer/utils/model_utils.html
 create mode 100644 _modules/data_juicer/utils/process_utils.html
 create mode 100644 _modules/data_juicer/utils/registry.html
 create mode 100644 _modules/data_juicer/utils/resource_utils.html
 create mode 100644 _modules/data_juicer/utils/unittest_utils.html

diff --git a/.buildinfo b/.buildinfo
index 7a3a9d48e..3940ce529 100644
--- a/.buildinfo
+++ b/.buildinfo
@@ -1,4 +1,4 @@
 # Sphinx build info version 1
-# This file records the configuration used when building these files. When it is not found, a full rebuild will be done.
-config: d21389c0a148f57cab87e3135f4aa3e2
+# This file hashes the configuration used when building these files. When it is not found, a full rebuild will be done.
+config: 02acd820f6eb43d6f533ae13ad9142b0
 tags: 645f666f9bcd5a90fca523b33c5a78b7
diff --git a/_modules/data_juicer.html b/_modules/data_juicer.html
index 1fc60dc18..9ddcf12c4 100644
--- a/_modules/data_juicer.html
+++ b/_modules/data_juicer.html
@@ -11,7 +11,7 @@
 
   
       <script src="../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../_static/doctools.js?v=9a2dae69"></script>
       <script src="../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
diff --git a/_modules/data_juicer/analysis/collector.html b/_modules/data_juicer/analysis/collector.html
new file mode 100644
index 000000000..f05c53043
--- /dev/null
+++ b/_modules/data_juicer/analysis/collector.html
@@ -0,0 +1,188 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.analysis.collector &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.analysis.collector</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.analysis.collector</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">itertools</span> <span class="kn">import</span> <span class="n">chain</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.format</span> <span class="kn">import</span> <span class="n">load_formatter</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">transformers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="TextTokenDistCollector">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector">[docs]</a>
+<span class="k">class</span> <span class="nc">TextTokenDistCollector</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Tokenize and collect distribution of tokens for given</span>
+<span class="sd">    dataset with a specified tokenizer.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="TextTokenDistCollector.__init__">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param tokenizer: tokenizer name on huggingface</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">tokenizer</span><span class="p">,</span> <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="TextTokenDistCollector.collect">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.collect">[docs]</a>
+    <span class="k">def</span> <span class="nf">collect</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                <span class="n">data_path</span><span class="p">,</span>
+                <span class="n">text_key</span><span class="p">,</span>
+                <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s1">&#39;torch.distributions.Categorical&#39;</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Tokenize and collect tokens distribution of input dataset</span>
+<span class="sd">        :param data_path: path to input dataset.</span>
+<span class="sd">        :param text_key: field keys that will be considered into token counts.</span>
+<span class="sd">        :param num_proc: number of processes to count tokens.</span>
+<span class="sd">        :return: token distribution.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">formatter</span> <span class="o">=</span> <span class="n">load_formatter</span><span class="p">(</span><span class="n">data_path</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">formatter</span><span class="o">.</span><span class="n">load_dataset</span><span class="p">(</span><span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">text_key</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">text_key</span><span class="si">}</span><span class="s1"> not find in dataset&#39;</span>
+
+        <span class="k">def</span> <span class="nf">prepare_tokenizer</span><span class="p">(</span>
+            <span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">text_key</span><span class="p">,</span>
+        <span class="p">):</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            Prepare a tokenizer function for dataset.</span>
+<span class="sd">            :param tokenizer: a tokenizer to tokenize sample.</span>
+<span class="sd">            :param text_key: field keys that will be</span>
+<span class="sd">                considered into token counts.</span>
+<span class="sd">            &quot;&quot;&quot;</span>
+
+            <span class="k">def</span> <span class="nf">_tokenize_fn</span><span class="p">(</span><span class="n">example</span><span class="p">,</span> <span class="p">):</span>
+                <span class="n">example</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="p">(</span><span class="n">example</span><span class="p">[</span><span class="n">text_key</span><span class="p">],</span>
+                                    <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">example</span>
+
+            <span class="k">return</span> <span class="n">_tokenize_fn</span>
+
+        <span class="n">tokenize_proc</span> <span class="o">=</span> <span class="n">prepare_tokenizer</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">text_key</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">tokenize_proc</span><span class="p">,</span>
+                              <span class="n">num_proc</span><span class="o">=</span><span class="n">num_proc</span><span class="p">,</span>
+                              <span class="n">desc</span><span class="o">=</span><span class="sa">f</span><span class="s1">&#39;tokenize </span><span class="si">{</span><span class="n">data_path</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="n">token_count</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">int64</span><span class="p">)</span>
+        <span class="n">token_ids</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+            <span class="nb">list</span><span class="p">(</span><span class="n">chain</span><span class="o">.</span><span class="n">from_iterable</span><span class="p">(</span><span class="n">dataset</span><span class="p">[</span><span class="s1">&#39;input_ids&#39;</span><span class="p">])))</span>
+        <span class="n">indices</span><span class="p">,</span> <span class="n">counts</span> <span class="o">=</span> <span class="n">token_ids</span><span class="o">.</span><span class="n">unique</span><span class="p">(</span><span class="n">return_counts</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">token_count</span><span class="o">.</span><span class="n">scatter_</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">indices</span><span class="p">,</span> <span class="n">counts</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">token_count</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+        <span class="n">dist</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">distributions</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">token_count</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">dist</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/column_wise_analysis.html b/_modules/data_juicer/analysis/column_wise_analysis.html
index 00680847c..88f2ba97f 100644
--- a/_modules/data_juicer/analysis/column_wise_analysis.html
+++ b/_modules/data_juicer/analysis/column_wise_analysis.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,6 +90,8 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 <span class="kn">from</span> <span class="nn">.overall_analysis</span> <span class="kn">import</span> <span class="n">OverallAnalysis</span>
 
 
+<div class="viewcode-block" id="get_row_col">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col">[docs]</a>
 <span class="k">def</span> <span class="nf">get_row_col</span><span class="p">(</span><span class="n">total_num</span><span class="p">,</span> <span class="n">factor</span><span class="o">=</span><span class="mi">2</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Given the total number of stats figures, get the &quot;best&quot; number of rows and</span>
@@ -128,16 +130,17 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
     <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">total_num</span><span class="p">):</span>
         <span class="n">grids</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">i</span> <span class="o">//</span> <span class="n">now_col</span><span class="p">,</span> <span class="n">i</span> <span class="o">%</span> <span class="n">now_col</span><span class="p">))</span>
 
-    <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_row</span><span class="p">),</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_col</span><span class="p">),</span> <span class="n">grids</span>
+    <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_row</span><span class="p">),</span> <span class="nb">int</span><span class="p">(</span><span class="n">now_col</span><span class="p">),</span> <span class="n">grids</span></div>
+
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">[docs]</a>
 <span class="k">class</span> <span class="nc">ColumnWiseAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on each column of stats respectively.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.__init__">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset</span><span class="p">,</span>
                  <span class="n">output_path</span><span class="p">,</span>
@@ -173,7 +176,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.analyze">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze">[docs]</a>
     <span class="k">def</span> <span class="nf">analyze</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">show_percentiles</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">skip_export</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply analysis and draw the analysis figure for stats.</span>
@@ -291,7 +294,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.draw_hist">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">[docs]</a>
     <span class="k">def</span> <span class="nf">draw_hist</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Draw the histogram for the data.</span>
@@ -352,7 +355,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.draw_box">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">[docs]</a>
     <span class="k">def</span> <span class="nf">draw_box</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Draw the box plot for the data.</span>
@@ -403,7 +406,7 @@ <h1>Source code for data_juicer.analysis.column_wise_analysis</h1><div class="hi
 
 
 <div class="viewcode-block" id="ColumnWiseAnalysis.draw_wordcloud">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud">[docs]</a>
     <span class="k">def</span> <span class="nf">draw_wordcloud</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ax</span><span class="p">,</span> <span class="n">data</span><span class="p">,</span> <span class="n">save_path</span><span class="p">,</span> <span class="n">show</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">word_list</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
         <span class="n">word_nums</span> <span class="o">=</span> <span class="p">{}</span>
diff --git a/_modules/data_juicer/analysis/diversity_analysis.html b/_modules/data_juicer/analysis/diversity_analysis.html
index 6556ae401..104fa13dd 100644
--- a/_modules/data_juicer/analysis/diversity_analysis.html
+++ b/_modules/data_juicer/analysis/diversity_analysis.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,6 +88,8 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
 <span class="c1"># Modify from self_instruct, please refer to</span>
 <span class="c1"># https://github.com/yizhongw/self-instruct/blob/main/self_instruct/instruction_visualize.ipynb</span>
+<div class="viewcode-block" id="find_root_verb_and_its_dobj">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">[docs]</a>
 <span class="k">def</span> <span class="nf">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">tree_root</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Find the verb and its object closest to the root.</span>
@@ -108,11 +110,14 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
     <span class="k">for</span> <span class="n">child</span> <span class="ow">in</span> <span class="n">tree_root</span><span class="o">.</span><span class="n">children</span><span class="p">:</span>
         <span class="k">return</span> <span class="n">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">child</span><span class="p">)</span>
     <span class="c1"># if no children satisfy the condition, return None</span>
-    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
+
 
 
 <span class="c1"># Modify from self_instruct, please refer to</span>
 <span class="c1"># https://github.com/yizhongw/self-instruct/blob/main/self_instruct/instruction_visualize.ipynb</span>
+<div class="viewcode-block" id="find_root_verb_and_its_dobj_in_string">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">[docs]</a>
 <span class="k">def</span> <span class="nf">find_root_verb_and_its_dobj_in_string</span><span class="p">(</span><span class="n">nlp</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">first_sent</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Find the verb and its object closest to the root of lexical tree of input</span>
@@ -131,9 +136,12 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
         <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span> <span class="o">=</span> <span class="n">find_root_verb_and_its_dobj</span><span class="p">(</span><span class="n">sent</span><span class="o">.</span><span class="n">root</span><span class="p">)</span>
         <span class="k">if</span> <span class="n">first_sent</span> <span class="ow">or</span> <span class="p">(</span><span class="n">verb</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">noun</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">):</span>
             <span class="k">return</span> <span class="n">verb</span><span class="p">,</span> <span class="n">noun</span>
-    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span></div>
+
 
 
+<div class="viewcode-block" id="get_diversity">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity">[docs]</a>
 <span class="k">def</span> <span class="nf">get_diversity</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">top_k_verbs</span><span class="o">=</span><span class="mi">20</span><span class="p">,</span> <span class="n">top_k_nouns</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Given the lexical tree analysis result, return the diversity results.</span>
@@ -158,17 +166,18 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
     <span class="n">df</span> <span class="o">=</span> <span class="n">df</span><span class="o">.</span><span class="n">groupby</span><span class="p">(</span><span class="s1">&#39;verb&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">sort_values</span><span class="p">(</span>
         <span class="s1">&#39;count&#39;</span><span class="p">,</span> <span class="n">ascending</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span><span class="o">.</span><span class="n">head</span><span class="p">(</span><span class="n">top_k_nouns</span><span class="p">))</span><span class="o">.</span><span class="n">reset_index</span><span class="p">(</span><span class="n">drop</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">df</span>
+    <span class="k">return</span> <span class="n">df</span></div>
+
 
 
 <div class="viewcode-block" id="DiversityAnalysis">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis">[docs]</a>
 <span class="k">class</span> <span class="nc">DiversityAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply diversity analysis for each sample and get an overall analysis</span>
 <span class="sd">    result.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="DiversityAnalysis.__init__">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="s1">&#39;en&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method :param dataset: the dataset to be analyzed</span>
 <span class="sd">        :param output_path: path to store the analysis results :param</span>
@@ -183,7 +192,7 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
 
 <div class="viewcode-block" id="DiversityAnalysis.compute">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">[docs]</a>
     <span class="k">def</span> <span class="nf">compute</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply lexical tree analysis on each sample.</span>
@@ -217,7 +226,7 @@ <h1>Source code for data_juicer.analysis.diversity_analysis</h1><div class="high
 
 
 <div class="viewcode-block" id="DiversityAnalysis.analyze">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze">[docs]</a>
     <span class="k">def</span> <span class="nf">analyze</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                 <span class="n">lang_or_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                 <span class="n">column_name</span><span class="o">=</span><span class="s1">&#39;text&#39;</span><span class="p">,</span>
diff --git a/_modules/data_juicer/analysis/draw.html b/_modules/data_juicer/analysis/draw.html
new file mode 100644
index 000000000..5a7cc7a3e
--- /dev/null
+++ b/_modules/data_juicer/analysis/draw.html
@@ -0,0 +1,154 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.analysis.draw &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.analysis.draw</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.analysis.draw</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">matplotlib.pyplot</span> <span class="k">as</span> <span class="nn">plt</span>
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">seaborn</span> <span class="k">as</span> <span class="nn">sns</span>
+
+
+<div class="viewcode-block" id="draw_heatmap">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.draw.draw_heatmap">[docs]</a>
+<span class="k">def</span> <span class="nf">draw_heatmap</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">xlabels</span><span class="p">,</span> <span class="n">ylables</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">figsize</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">triangle</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Draw heatmap of input data with special lables.</span>
+
+<span class="sd">    :param data: input data, now support</span>
+<span class="sd">        [`list`, `tuple`, `numpy array`, &#39;torch tensor&#39;]</span>
+<span class="sd">    :param xlabels: x axis labels.</span>
+<span class="sd">    :param ylabels: y axis labels, if None, use xlabels.</span>
+<span class="sd">    :param figsize: figure size.</span>
+<span class="sd">    :param triangle: only display triangle.</span>
+<span class="sd">    :return: a plot figure.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">figsize</span> <span class="o">=</span> <span class="n">figsize</span> <span class="k">if</span> <span class="n">figsize</span> <span class="k">else</span> <span class="p">(</span><span class="mi">8</span> <span class="o">*</span> <span class="mf">2.5</span><span class="p">,</span> <span class="mi">6</span> <span class="o">*</span> <span class="mf">2.5</span><span class="p">)</span>
+    <span class="n">_</span><span class="p">,</span> <span class="n">ax</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="n">figsize</span><span class="p">)</span>
+    <span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">if</span> <span class="n">triangle</span><span class="p">:</span>
+        <span class="n">mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">triu</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">data</span><span class="p">))</span>
+    <span class="n">ax</span><span class="o">.</span><span class="n">tick_params</span><span class="p">(</span>
+        <span class="n">right</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">top</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">labelright</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">labeltop</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">sns</span><span class="o">.</span><span class="n">heatmap</span><span class="p">(</span><span class="n">data</span><span class="p">,</span>
+                <span class="n">ax</span><span class="o">=</span><span class="n">ax</span><span class="p">,</span>
+                <span class="n">cmap</span><span class="o">=</span><span class="s1">&#39;Oranges&#39;</span><span class="p">,</span>
+                <span class="n">annot</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">,</span>
+                <span class="n">linewidths</span><span class="o">=</span><span class="mf">.05</span><span class="p">,</span>
+                <span class="n">square</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">xticklabels</span><span class="o">=</span><span class="n">xlabels</span><span class="p">,</span>
+                <span class="n">yticklabels</span><span class="o">=</span><span class="n">ylables</span><span class="p">,</span>
+                <span class="n">annot_kws</span><span class="o">=</span><span class="p">{</span><span class="s1">&#39;size&#39;</span><span class="p">:</span> <span class="mi">8</span><span class="p">})</span>
+    <span class="n">plt</span><span class="o">.</span><span class="n">subplots_adjust</span><span class="p">(</span><span class="n">left</span><span class="o">=</span><span class="mf">.1</span><span class="p">,</span> <span class="n">right</span><span class="o">=</span><span class="mf">0.95</span><span class="p">,</span> <span class="n">bottom</span><span class="o">=</span><span class="mf">0.22</span><span class="p">,</span> <span class="n">top</span><span class="o">=</span><span class="mf">0.95</span><span class="p">)</span>
+    <span class="n">fig</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">gcf</span><span class="p">()</span>
+    <span class="n">plt</span><span class="o">.</span><span class="n">show</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">fig</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/measure.html b/_modules/data_juicer/analysis/measure.html
new file mode 100644
index 000000000..61d48df0f
--- /dev/null
+++ b/_modules/data_juicer/analysis/measure.html
@@ -0,0 +1,372 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.analysis.measure &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.analysis.measure</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.analysis.measure</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">td</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;td&#39;</span><span class="p">,</span> <span class="s1">&#39;torch.distributions&#39;</span><span class="p">)</span>
+<span class="n">F</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;F&#39;</span><span class="p">,</span> <span class="s1">&#39;torch.nn.functional&#39;</span><span class="p">)</span>
+
+<span class="n">stats</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;stats&#39;</span><span class="p">,</span> <span class="s1">&#39;scipy.stats&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="Measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.Measure">[docs]</a>
+<span class="k">class</span> <span class="nc">Measure</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Base class for Measure distribution.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;base&#39;</span>
+
+<div class="viewcode-block" id="Measure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.Measure.measure">[docs]</a>
+    <span class="k">def</span> <span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">pass</span></div>
+
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">measure</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_convert_to_tensor</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert input data to torch tensor.</span>
+<span class="sd">        :param p: input data, now support</span>
+<span class="sd">            [`scalar`,`list`, `tuple`, `torch binary file`, and `Categorical`].</span>
+<span class="sd">        :return: torch tensor</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">p</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_convert_to_categorical</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert input data to torch Categorical.</span>
+<span class="sd">        :param p: input data, now support</span>
+<span class="sd">            [`scalar`,`list`, `tuple`, `torch binary file`, and `Categorical`].</span>
+<span class="sd">        :return: torch Categorical</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">p</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">p</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">td</span><span class="o">.</span><span class="n">Categorical</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">p</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">_convert_to_ndarray</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert input data to torch tensor.</span>
+<span class="sd">        :param p: input data, now support</span>
+<span class="sd">            [`scalar`,`list`, `tuple`, `torch binary file`, and `Categorical`].</span>
+<span class="sd">        :return: torch tensor</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_tensor</span><span class="p">(</span><span class="n">p</span><span class="p">)</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="KLDivMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure">[docs]</a>
+<span class="k">class</span> <span class="nc">KLDivMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Kullback-Leibler divergence.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;kl_divergence&#39;</span>
+
+<div class="viewcode-block" id="KLDivMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.measure">[docs]</a>
+    <span class="k">def</span> <span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> \
+            <span class="s1">&#39;The two inputs have different shape:&#39;</span> \
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> != </span><span class="si">{</span><span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">return</span> <span class="n">F</span><span class="o">.</span><span class="n">kl_div</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">logits</span><span class="p">,</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="p">,</span> <span class="n">log_target</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">reduction</span><span class="o">=</span><span class="s1">&#39;sum&#39;</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="JSDivMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure">[docs]</a>
+<span class="k">class</span> <span class="nc">JSDivMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Jensen-Shannon divergence.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;js_divergence&#39;</span>
+
+<div class="viewcode-block" id="JSDivMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.measure">[docs]</a>
+    <span class="k">def</span> <span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_tensor</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_tensor</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">p</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span>  \
+            <span class="s1">&#39;The two inputs have different shape:&#39;</span> \
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">p</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> != </span><span class="si">{</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span>
+
+        <span class="n">m</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="p">(</span><span class="n">p</span> <span class="o">+</span> <span class="n">q</span><span class="p">)</span>
+        <span class="n">kl_p</span> <span class="o">=</span> <span class="n">KLDivMeasure</span><span class="p">()(</span><span class="n">p</span><span class="p">,</span> <span class="n">m</span><span class="p">)</span>
+        <span class="n">kl_q</span> <span class="o">=</span> <span class="n">KLDivMeasure</span><span class="p">()(</span><span class="n">q</span><span class="p">,</span> <span class="n">m</span><span class="p">)</span>
+        <span class="n">js</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="p">(</span><span class="n">kl_p</span> <span class="o">+</span> <span class="n">kl_q</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">js</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CrossEntropyMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure">[docs]</a>
+<span class="k">class</span> <span class="nc">CrossEntropyMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Cross-Entropy.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;cross_entropy&#39;</span>
+
+<div class="viewcode-block" id="CrossEntropyMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.measure">[docs]</a>
+    <span class="k">def</span> <span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="k">assert</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> \
+            <span class="s1">&#39;The two inputs have different shape: &#39;</span>\
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> != </span><span class="si">{</span><span class="n">q</span><span class="o">.</span><span class="n">probs</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s1"> in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">return</span> <span class="n">F</span><span class="o">.</span><span class="n">cross_entropy</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">logits</span><span class="p">,</span> <span class="n">p</span><span class="o">.</span><span class="n">probs</span><span class="p">,</span> <span class="n">reduction</span><span class="o">=</span><span class="s1">&#39;sum&#39;</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="EntropyMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure">[docs]</a>
+<span class="k">class</span> <span class="nc">EntropyMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure Entropy.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;entropy&#39;</span>
+
+<div class="viewcode-block" id="EntropyMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.measure">[docs]</a>
+    <span class="k">def</span> <span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_convert_to_categorical</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">p</span><span class="o">.</span><span class="n">entropy</span><span class="p">()</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="RelatedTTestMeasure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure">[docs]</a>
+<span class="k">class</span> <span class="nc">RelatedTTestMeasure</span><span class="p">(</span><span class="n">Measure</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Measure T-Test for two related distributions on their histogram of the same</span>
+<span class="sd">    bins.</span>
+
+<span class="sd">    Ref:</span>
+<span class="sd">    https://en.wikipedia.org/wiki/Student%27s_t-test</span>
+
+<span class="sd">    For continuous features or distributions, the input could be dataset stats</span>
+<span class="sd">    list.</span>
+<span class="sd">    For discrete features or distributions, the input could be the tags or the</span>
+<span class="sd">    categories list.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span> <span class="o">=</span> <span class="s1">&#39;t-test&#39;</span>
+
+<div class="viewcode-block" id="RelatedTTestMeasure.stats_to_hist">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">stats_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+
+        <span class="c1"># get common maximum number of data samples, and max/min values</span>
+        <span class="n">max_data_num</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">q</span><span class="p">))</span>
+        <span class="n">min_val</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="nb">min</span><span class="p">(</span><span class="n">q</span><span class="p">))</span>
+        <span class="n">max_val</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">max</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="nb">max</span><span class="p">(</span><span class="n">q</span><span class="p">))</span>
+
+        <span class="c1"># get a recommended number of bins</span>
+        <span class="n">rec_bins</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">max_data_num</span><span class="p">)),</span> <span class="mi">10</span><span class="p">)</span>
+
+        <span class="c1"># get the common bin edges</span>
+        <span class="n">common_p</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="p">[</span><span class="n">min_val</span><span class="p">,</span> <span class="n">max_val</span><span class="p">])</span>
+        <span class="n">hist_p</span><span class="p">,</span> <span class="n">bin_edges</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">histogram</span><span class="p">(</span><span class="n">common_p</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="n">rec_bins</span><span class="p">)</span>
+        <span class="c1"># restore the hist of the original p</span>
+        <span class="n">hist_p</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">-=</span> <span class="mi">1</span>
+        <span class="n">hist_p</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">-=</span> <span class="mi">1</span>
+        <span class="c1"># get the hist of the original q using the common bin edges</span>
+        <span class="n">hist_q</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">histogram</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="n">bin_edges</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span><span class="p">,</span> <span class="n">bin_edges</span></div>
+
+
+<div class="viewcode-block" id="RelatedTTestMeasure.category_to_hist">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">category_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+
+        <span class="k">def</span> <span class="nf">flatten_list</span><span class="p">(</span><span class="n">lst</span><span class="p">):</span>
+            <span class="n">res</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">lst</span><span class="p">:</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+                    <span class="n">res</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">flatten_list</span><span class="p">(</span><span class="n">s</span><span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">res</span>
+
+        <span class="c1"># flatten the list</span>
+        <span class="n">p</span> <span class="o">=</span> <span class="n">flatten_list</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="n">flatten_list</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+
+        <span class="c1"># get the common categories</span>
+        <span class="n">cat_p</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">p</span><span class="p">)</span>
+        <span class="n">cat_q</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">q</span><span class="p">)</span>
+        <span class="n">cat_common</span> <span class="o">=</span> <span class="n">cat_p</span><span class="o">.</span><span class="n">union</span><span class="p">(</span><span class="n">cat_q</span><span class="p">)</span>
+
+        <span class="c1"># get category distributions</span>
+        <span class="n">count_p</span> <span class="o">=</span> <span class="p">{</span><span class="n">cat</span><span class="p">:</span> <span class="mi">0</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">cat_common</span><span class="p">}</span>
+        <span class="n">count_q</span> <span class="o">=</span> <span class="p">{</span><span class="n">cat</span><span class="p">:</span> <span class="mi">0</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">cat_common</span><span class="p">}</span>
+        <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">p</span><span class="p">:</span>
+            <span class="n">count_p</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">q</span><span class="p">:</span>
+            <span class="n">count_q</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
+
+        <span class="c1"># only keep distribution values sorted by counts</span>
+        <span class="n">sorted_cat</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">count_p</span><span class="o">.</span><span class="n">items</span><span class="p">())</span>
+        <span class="n">sorted_cat</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">it</span><span class="p">:</span> <span class="n">it</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">sorted_cat</span> <span class="o">=</span> <span class="p">[</span><span class="n">it</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">it</span> <span class="ow">in</span> <span class="n">sorted_cat</span><span class="p">]</span>
+        <span class="c1"># get the value dist</span>
+        <span class="n">hist_p</span> <span class="o">=</span> <span class="p">[</span><span class="n">count_p</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">sorted_cat</span><span class="p">]</span>
+        <span class="n">hist_q</span> <span class="o">=</span> <span class="p">[</span><span class="n">count_q</span><span class="p">[</span><span class="n">cat</span><span class="p">]</span> <span class="k">for</span> <span class="n">cat</span> <span class="ow">in</span> <span class="n">sorted_cat</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span><span class="p">,</span> <span class="n">count_p</span><span class="p">,</span> <span class="n">count_q</span><span class="p">,</span> <span class="n">sorted_cat</span></div>
+
+
+<div class="viewcode-block" id="RelatedTTestMeasure.measure">
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.measure">[docs]</a>
+    <span class="k">def</span> <span class="nf">measure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        :param p: the first feature or distribution. (stats/tags/categories)</span>
+<span class="sd">        :param q: the second feature or distribution. (stats/tags/categories)</span>
+<span class="sd">        :return: the T-Test results object -- ([ref](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats._result_classes.TtestResult.html#scipy.stats._result_classes.TtestResult))  # noqa: E501</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">ele</span> <span class="o">=</span> <span class="n">p</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">while</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ele</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="n">ele</span> <span class="o">=</span> <span class="n">ele</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ele</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="c1"># discrete tags or categories</span>
+            <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">category_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">)[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># continuous stats</span>
+            <span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">stats_to_hist</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">q</span><span class="p">)[:</span><span class="mi">2</span><span class="p">]</span>
+
+        <span class="c1"># compute the t-test and pval for hist_p and hist_q</span>
+        <span class="n">ttest_res</span> <span class="o">=</span> <span class="n">stats</span><span class="o">.</span><span class="n">ttest_rel</span><span class="p">(</span><span class="n">hist_p</span><span class="p">,</span> <span class="n">hist_q</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">ttest_res</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/analysis/overall_analysis.html b/_modules/data_juicer/analysis/overall_analysis.html
index b50c3cc6b..e86453abe 100644
--- a/_modules/data_juicer/analysis/overall_analysis.html
+++ b/_modules/data_juicer/analysis/overall_analysis.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,13 +93,13 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 
 
 <div class="viewcode-block" id="OverallAnalysis">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis">[docs]</a>
 <span class="k">class</span> <span class="nc">OverallAnalysis</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Apply analysis on the overall stats, including mean, std, quantiles,</span>
 <span class="sd">    etc.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="OverallAnalysis.__init__">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">output_path</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -129,7 +129,7 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 
 
 <div class="viewcode-block" id="OverallAnalysis.refine_single_column">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column">[docs]</a>
     <span class="k">def</span> <span class="nf">refine_single_column</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">col</span><span class="p">):</span>
         <span class="k">if</span> <span class="n">col</span><span class="o">.</span><span class="n">dtype</span> <span class="o">!=</span> <span class="s1">&#39;object&#39;</span><span class="p">:</span>
             <span class="c1"># not an object, return directly</span>
@@ -152,7 +152,7 @@ <h1>Source code for data_juicer.analysis.overall_analysis</h1><div class="highli
 
 
 <div class="viewcode-block" id="OverallAnalysis.analyze">
-<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze">[docs]</a>
     <span class="k">def</span> <span class="nf">analyze</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">percentiles</span><span class="o">=</span><span class="p">[],</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">skip_export</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Apply overall analysis on the whole dataset based on the describe</span>
diff --git a/_modules/data_juicer/config/config.html b/_modules/data_juicer/config/config.html
index 9adf1de29..283b02b33 100644
--- a/_modules/data_juicer/config/config.html
+++ b/_modules/data_juicer/config/config.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="init_configs">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.init_configs">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.init_configs">[docs]</a>
 <span class="k">def</span> <span class="nf">init_configs</span><span class="p">(</span><span class="n">args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">which_entry</span><span class="p">:</span> <span class="nb">object</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    initialize the jsonargparse parser and parse configs from one of:</span>
@@ -481,6 +481,8 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 
+<div class="viewcode-block" id="update_ds_cache_dir_and_related_vars">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.update_ds_cache_dir_and_related_vars">[docs]</a>
 <span class="k">def</span> <span class="nf">update_ds_cache_dir_and_related_vars</span><span class="p">(</span><span class="n">new_ds_cache_path</span><span class="p">):</span>
     <span class="kn">from</span> <span class="nn">pathlib</span> <span class="kn">import</span> <span class="n">Path</span>
 
@@ -498,9 +500,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_EXTRACTED_DATASETS_PATH</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
         <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_DOWNLOADED_DATASETS_PATH</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">EXTRACTED_DATASETS_DIR</span><span class="p">)</span>
     <span class="n">config</span><span class="o">.</span><span class="n">EXTRACTED_DATASETS_PATH</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span>
-        <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_EXTRACTED_DATASETS_PATH</span><span class="p">)</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">DEFAULT_EXTRACTED_DATASETS_PATH</span><span class="p">)</span></div>
 
 
+
+<div class="viewcode-block" id="init_setup_from_cfg">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg">[docs]</a>
 <span class="k">def</span> <span class="nf">init_setup_from_cfg</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Do some extra setup tasks after parsing config file or command line.</span>
@@ -635,9 +640,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="p">}</span>
     <span class="n">cfg</span><span class="o">.</span><span class="n">process</span> <span class="o">=</span> <span class="n">update_op_attr</span><span class="p">(</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">,</span> <span class="n">op_attrs</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">cfg</span>
+    <span class="k">return</span> <span class="n">cfg</span></div>
+
 
 
+<div class="viewcode-block" id="load_ops_with_stats_meta">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.load_ops_with_stats_meta">[docs]</a>
 <span class="k">def</span> <span class="nf">load_ops_with_stats_meta</span><span class="p">():</span>
     <span class="kn">import</span> <span class="nn">pkgutil</span>
 
@@ -648,9 +656,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="p">}</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">filter_name</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="n">pkgutil</span><span class="o">.</span><span class="n">iter_modules</span><span class="p">(</span><span class="n">djfilter</span><span class="o">.</span><span class="n">__path__</span><span class="p">)</span>
                      <span class="k">if</span> <span class="n">filter_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">NON_STATS_FILTERS</span><span class="o">.</span><span class="n">modules</span><span class="p">]</span>
     <span class="n">meta_ops</span> <span class="o">=</span> <span class="p">[{</span><span class="n">op_name</span><span class="p">:</span> <span class="p">{}}</span> <span class="k">for</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="n">TAGGING_OPS</span><span class="o">.</span><span class="n">modules</span><span class="p">]</span>
-    <span class="k">return</span> <span class="n">stats_filters</span> <span class="o">+</span> <span class="n">meta_ops</span>
+    <span class="k">return</span> <span class="n">stats_filters</span> <span class="o">+</span> <span class="n">meta_ops</span></div>
+
 
 
+<div class="viewcode-block" id="update_op_attr">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.update_op_attr">[docs]</a>
 <span class="k">def</span> <span class="nf">update_op_attr</span><span class="p">(</span><span class="n">op_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">,</span> <span class="n">attr_dict</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
     <span class="k">if</span> <span class="ow">not</span> <span class="n">attr_dict</span><span class="p">:</span>
         <span class="k">return</span> <span class="n">op_list</span>
@@ -666,7 +677,8 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
                         <span class="n">args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">attr_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
             <span class="n">op</span><span class="p">[</span><span class="n">op_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">args</span>
         <span class="n">updated_op_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">updated_op_list</span>
+    <span class="k">return</span> <span class="n">updated_op_list</span></div>
+
 
 
 <span class="k">def</span> <span class="nf">_collect_config_info_from_class_docs</span><span class="p">(</span><span class="n">configurable_ops</span><span class="p">,</span> <span class="n">parser</span><span class="p">):</span>
@@ -691,6 +703,8 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="k">return</span> <span class="n">op_params</span>
 
 
+<div class="viewcode-block" id="sort_op_by_types_and_names">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names">[docs]</a>
 <span class="k">def</span> <span class="nf">sort_op_by_types_and_names</span><span class="p">(</span><span class="n">op_name_classes</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Split ops items by op type and sort them to sub-ops by name, then concat</span>
@@ -716,9 +730,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">ops_sorted_by_types</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">mapper_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">filter_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span>
         <span class="n">deduplicator_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">selector_ops</span><span class="p">)</span> <span class="o">+</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">grouper_ops</span><span class="p">)</span> <span class="o">+</span> \
         <span class="nb">sorted</span><span class="p">(</span><span class="n">aggregator_ops</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">ops_sorted_by_types</span>
+    <span class="k">return</span> <span class="n">ops_sorted_by_types</span></div>
+
 
 
+<div class="viewcode-block" id="update_op_process">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.update_op_process">[docs]</a>
 <span class="k">def</span> <span class="nf">update_op_process</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="n">parser</span><span class="p">):</span>
     <span class="n">op_keys</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">OPERATORS</span><span class="o">.</span><span class="n">modules</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
     <span class="n">args</span> <span class="o">=</span> <span class="p">[</span>
@@ -785,9 +802,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="k">else</span><span class="p">:</span>
         <span class="n">temp_args</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;--auto&#39;</span><span class="p">]</span> <span class="o">+</span> <span class="n">temp_args</span>
     <span class="n">temp_parser</span><span class="o">.</span><span class="n">parse_args</span><span class="p">(</span><span class="n">temp_args</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">cfg</span>
+    <span class="k">return</span> <span class="n">cfg</span></div>
 
 
+
+<div class="viewcode-block" id="namespace_to_arg_list">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.namespace_to_arg_list">[docs]</a>
 <span class="k">def</span> <span class="nf">namespace_to_arg_list</span><span class="p">(</span><span class="n">namespace</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">includes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">excludes</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
     <span class="n">arg_list</span> <span class="o">=</span> <span class="p">[]</span>
 
@@ -805,9 +825,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
             <span class="n">arg_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;--</span><span class="si">{</span><span class="n">concat_key</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
             <span class="n">arg_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">value</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">arg_list</span>
+    <span class="k">return</span> <span class="n">arg_list</span></div>
+
 
 
+<div class="viewcode-block" id="config_backup">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.config_backup">[docs]</a>
 <span class="k">def</span> <span class="nf">config_backup</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
     <span class="k">if</span> <span class="ow">not</span> <span class="n">cfg</span><span class="o">.</span><span class="n">config</span><span class="p">:</span>
         <span class="k">return</span>
@@ -817,9 +840,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Back up the input config file [</span><span class="si">{</span><span class="n">cfg_path</span><span class="si">}</span><span class="s1">] into the &#39;</span>
                 <span class="sa">f</span><span class="s1">&#39;work_dir [</span><span class="si">{</span><span class="n">work_dir</span><span class="si">}</span><span class="s1">]&#39;</span><span class="p">)</span>
     <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">target_path</span><span class="p">):</span>
-        <span class="n">shutil</span><span class="o">.</span><span class="n">copyfile</span><span class="p">(</span><span class="n">cfg_path</span><span class="p">,</span> <span class="n">target_path</span><span class="p">)</span>
+        <span class="n">shutil</span><span class="o">.</span><span class="n">copyfile</span><span class="p">(</span><span class="n">cfg_path</span><span class="p">,</span> <span class="n">target_path</span><span class="p">)</span></div>
 
 
+
+<div class="viewcode-block" id="display_config">
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.display_config">[docs]</a>
 <span class="k">def</span> <span class="nf">display_config</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
     <span class="kn">import</span> <span class="nn">pprint</span>
 
@@ -837,11 +863,12 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
     <span class="n">table</span> <span class="o">=</span> <span class="n">tabulate</span><span class="p">(</span><span class="n">config_table</span><span class="p">,</span> <span class="n">headers</span><span class="o">=</span><span class="n">table_header</span><span class="p">,</span> <span class="n">tablefmt</span><span class="o">=</span><span class="s1">&#39;fancy_grid&#39;</span><span class="p">)</span>
 
     <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Configuration table: &#39;</span><span class="p">)</span>
-    <span class="nb">print</span><span class="p">(</span><span class="n">table</span><span class="p">)</span>
+    <span class="nb">print</span><span class="p">(</span><span class="n">table</span><span class="p">)</span></div>
+
 
 
 <div class="viewcode-block" id="export_config">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.export_config">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.export_config">[docs]</a>
 <span class="k">def</span> <span class="nf">export_config</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">,</span>
                   <span class="n">path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                   <span class="nb">format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;yaml&#39;</span><span class="p">,</span>
@@ -886,7 +913,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="merge_config">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.merge_config">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.merge_config">[docs]</a>
 <span class="k">def</span> <span class="nf">merge_config</span><span class="p">(</span><span class="n">ori_cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">,</span> <span class="n">new_cfg</span><span class="p">:</span> <span class="n">Namespace</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Merge configuration from new_cfg into ori_cfg</span>
@@ -947,7 +974,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="prepare_side_configs">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.prepare_side_configs">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.prepare_side_configs">[docs]</a>
 <span class="k">def</span> <span class="nf">prepare_side_configs</span><span class="p">(</span><span class="n">ori_config</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Namespace</span><span class="p">,</span> <span class="n">Dict</span><span class="p">]):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    parse the config if ori_config is a string of a config file path with</span>
@@ -982,7 +1009,7 @@ <h1>Source code for data_juicer.config.config</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="get_init_configs">
-<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.get_init_configs">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.config.html#data_juicer.config.config.get_init_configs">[docs]</a>
 <span class="k">def</span> <span class="nf">get_init_configs</span><span class="p">(</span><span class="n">cfg</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Namespace</span><span class="p">,</span> <span class="n">Dict</span><span class="p">]):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    set init configs of datajucer for cfg</span>
diff --git a/_modules/data_juicer/core/adapter.html b/_modules/data_juicer/core/adapter.html
index 38e3854ac..6917ca60c 100644
--- a/_modules/data_juicer/core/adapter.html
+++ b/_modules/data_juicer/core/adapter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,13 +93,13 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter">[docs]</a>
 <span class="k">class</span> <span class="nc">Adapter</span><span class="p">:</span>
 
     <span class="n">MAX_BATCH_SIZE</span> <span class="o">=</span> <span class="mi">10000</span>
 
 <div class="viewcode-block" id="Adapter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span> <span class="o">=</span> <span class="n">cfg</span>
 
@@ -111,7 +111,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.execute_and_probe">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.execute_and_probe">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.execute_and_probe">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">execute_and_probe</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">operators</span><span class="p">,</span> <span class="n">sample_interval</span><span class="o">=</span><span class="mf">0.5</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -170,7 +170,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.take_batch">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.take_batch">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.take_batch">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">take_batch</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">config</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -194,7 +194,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.adapt_workloads">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.adapt_workloads">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.adapt_workloads">[docs]</a>
     <span class="k">def</span> <span class="nf">adapt_workloads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">operators</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Manage the scheduling and load balancing for the dataset processing.</span>
@@ -214,7 +214,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.probe_small_batch">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.probe_small_batch">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.probe_small_batch">[docs]</a>
     <span class="nd">@dataset_cache_control</span><span class="p">(</span><span class="n">on</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
     <span class="k">def</span> <span class="nf">probe_small_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">operators</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -242,7 +242,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.batch_size_strategy">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.batch_size_strategy">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.batch_size_strategy">[docs]</a>
     <span class="k">def</span> <span class="nf">batch_size_strategy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_analysis_res</span><span class="p">,</span> <span class="n">base_bs</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">util_th</span><span class="o">=</span><span class="mf">0.9</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Decide the batch size for each op according to their workload analysis</span>
@@ -282,7 +282,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.analyze_small_batch">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.analyze_small_batch">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.analyze_small_batch">[docs]</a>
     <span class="nd">@dataset_cache_control</span><span class="p">(</span><span class="n">on</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
     <span class="k">def</span> <span class="nf">analyze_small_batch</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">current_state</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -329,7 +329,7 @@ <h1>Source code for data_juicer.core.adapter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Adapter.insight_mining">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Adapter.insight_mining">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.adapter.Adapter.insight_mining">[docs]</a>
     <span class="k">def</span> <span class="nf">insight_mining</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pval_th</span><span class="o">=</span><span class="mf">0.05</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Mining the insights from the OP-wise analysis results. For now, we use</span>
diff --git a/_modules/data_juicer/core/analyzer.html b/_modules/data_juicer/core/analyzer.html
index a0ad4e4f5..53cac4cb1 100644
--- a/_modules/data_juicer/core/analyzer.html
+++ b/_modules/data_juicer/core/analyzer.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.core.analyzer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Analyzer">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Analyzer">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyzer.Analyzer">[docs]</a>
 <span class="k">class</span> <span class="nc">Analyzer</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This Analyzer class is used to analyze a specific dataset.</span>
@@ -111,7 +111,7 @@ <h1>Source code for data_juicer.core.analyzer</h1><div class="highlight"><pre>
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="Analyzer.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Analyzer.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyzer.Analyzer.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Namespace</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -157,7 +157,7 @@ <h1>Source code for data_juicer.core.analyzer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Analyzer.run">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Analyzer.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.analyzer.Analyzer.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
             <span class="n">dataset</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
             <span class="n">load_data_np</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
diff --git a/_modules/data_juicer/core/data.html b/_modules/data_juicer/core/data.html
index af6a615b7..07a876bb2 100644
--- a/_modules/data_juicer/core/data.html
+++ b/_modules/data_juicer/core/data.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -103,9 +103,13 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 <span class="kn">from</span> <span class="nn">data_juicer.utils.process_utils</span> <span class="kn">import</span> <span class="n">setup_mp</span>
 
 
+<div class="viewcode-block" id="DJDataset">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.DJDataset">[docs]</a>
 <span class="k">class</span> <span class="nc">DJDataset</span><span class="p">(</span><span class="n">ABC</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Base dataset of DJ&quot;&quot;&quot;</span>
 
+<div class="viewcode-block" id="DJDataset.process">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.DJDataset.process">[docs]</a>
     <span class="nd">@abstractmethod</span>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span>
             <span class="bp">self</span><span class="p">,</span>
@@ -115,9 +119,13 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
             <span class="n">checkpointer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
             <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">DJDataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;process a list of operators on the dataset.&quot;&quot;&quot;</span>
-        <span class="k">pass</span>
+        <span class="k">pass</span></div>
+</div>
+
 
 
+<div class="viewcode-block" id="wrap_func_with_nested_access">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access">[docs]</a>
 <span class="k">def</span> <span class="nf">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">f</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Before conducting actual function `f`, wrap its args and kargs into nested</span>
@@ -150,9 +158,12 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
         <span class="p">}</span>
         <span class="k">return</span> <span class="n">f</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">wrapped_f</span>
+    <span class="k">return</span> <span class="n">wrapped_f</span></div>
 
 
+
+<div class="viewcode-block" id="nested_obj_factory">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.nested_obj_factory">[docs]</a>
 <span class="k">def</span> <span class="nf">nested_obj_factory</span><span class="p">(</span><span class="n">obj</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Use nested classes to wrap the input object.</span>
@@ -172,12 +183,17 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
     <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obj</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
         <span class="k">return</span> <span class="p">[</span><span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">obj</span><span class="p">]</span>
     <span class="k">else</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">obj</span>
+        <span class="k">return</span> <span class="n">obj</span></div>
 
 
+
+<div class="viewcode-block" id="NestedQueryDict">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedQueryDict">[docs]</a>
 <span class="k">class</span> <span class="nc">NestedQueryDict</span><span class="p">(</span><span class="nb">dict</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced dict for better usability.&quot;&quot;&quot;</span>
 
+<div class="viewcode-block" id="NestedQueryDict.__init__">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedQueryDict.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
             <span class="c1"># init from another DatasetDict instance</span>
@@ -189,26 +205,35 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
         <span class="c1"># batched sample, (k &amp; v) are organized by list manner</span>
         <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
             <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">v</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="nb">dict</span><span class="p">):</span>
-                <span class="bp">self</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">v</span><span class="p">]</span>
+                <span class="bp">self</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">NestedQueryDict</span><span class="p">(</span><span class="n">item</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">v</span><span class="p">]</span></div>
+
 
     <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span></div>
 
 
+
+<div class="viewcode-block" id="NestedDatasetDict">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict">[docs]</a>
 <span class="k">class</span> <span class="nc">NestedDatasetDict</span><span class="p">(</span><span class="n">DatasetDict</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced HuggingFace-DatasetDict for better usability and efficiency.&quot;&quot;&quot;</span>
 
+<div class="viewcode-block" id="NestedDatasetDict.__init__">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
             <span class="c1"># init from another DatasetDict instance</span>
             <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="c1"># init from scratch</span>
-            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span>
+            <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">)</span></div>
+
 
     <span class="k">def</span> <span class="fm">__getitem__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">nested_query</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span>
 
+<div class="viewcode-block" id="NestedDatasetDict.map">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map">[docs]</a>
     <span class="k">def</span> <span class="nf">map</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">**</span><span class="n">args</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the map func, which is called by most common operations,</span>
 <span class="sd">        such that the processed samples can be accessed by nested manner.&quot;&quot;&quot;</span>
@@ -217,16 +242,18 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">args</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="s1">&#39;function&#39;</span><span class="p">])</span>
 
-        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="o">**</span><span class="n">args</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="o">**</span><span class="n">args</span><span class="p">)</span></div>
+</div>
+
 
 
 <div class="viewcode-block" id="NestedDataset">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset">[docs]</a>
 <span class="k">class</span> <span class="nc">NestedDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">DJDataset</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Enhanced HuggingFace-Dataset for better usability and efficiency.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="NestedDataset.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">args</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Dataset</span><span class="p">):</span>
             <span class="c1"># init from another Dataset instance</span>
@@ -249,7 +276,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="n">nested_obj_factory</span><span class="p">(</span><span class="n">res</span><span class="p">)</span>
 
 <div class="viewcode-block" id="NestedDataset.process">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.process">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">operators</span><span class="p">,</span>
@@ -348,7 +375,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.update_args">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.update_args">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.update_args">[docs]</a>
     <span class="k">def</span> <span class="nf">update_args</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">args</span><span class="p">,</span> <span class="n">kargs</span><span class="p">,</span> <span class="n">is_filter</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="k">if</span> <span class="n">args</span><span class="p">:</span>
             <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">args</span><span class="p">)</span>
@@ -398,7 +425,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.map">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.map">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.map">[docs]</a>
     <span class="k">def</span> <span class="nf">map</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the map func, which is called by most common operations,</span>
 <span class="sd">        such that the processed samples can be accessed by nested manner.&quot;&quot;&quot;</span>
@@ -422,7 +449,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.filter">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.filter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.filter">[docs]</a>
     <span class="k">def</span> <span class="nf">filter</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the filter func, which is called by most common operations,</span>
 <span class="sd">        such that the processed samples can be accessed by nested manner.&quot;&quot;&quot;</span>
@@ -458,7 +485,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.select">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.select">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.select">[docs]</a>
     <span class="k">def</span> <span class="nf">select</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the select func, such that selected samples can be accessed</span>
 <span class="sd">        by nested manner.&quot;&quot;&quot;</span>
@@ -466,7 +493,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.from_dict">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.from_dict">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.from_dict">[docs]</a>
     <span class="nd">@classmethod</span>
     <span class="k">def</span> <span class="nf">from_dict</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the from_dict func, which is called by most from_xx</span>
@@ -476,7 +503,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.add_column">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.add_column">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column">[docs]</a>
     <span class="k">def</span> <span class="nf">add_column</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the add column func, such that the processed samples</span>
 <span class="sd">        can be accessed by nested manner.&quot;&quot;&quot;</span>
@@ -484,7 +511,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.select_columns">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.select_columns">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.select_columns">[docs]</a>
     <span class="k">def</span> <span class="nf">select_columns</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the select columns func, such that the processed samples</span>
 <span class="sd">        can be accessed by nested manner.&quot;&quot;&quot;</span>
@@ -492,7 +519,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.remove_columns">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.remove_columns">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.remove_columns">[docs]</a>
     <span class="k">def</span> <span class="nf">remove_columns</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the remove columns func, such that the processed samples</span>
 <span class="sd">        can be accessed by nested manner.&quot;&quot;&quot;</span>
@@ -500,7 +527,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.cleanup_cache_files">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.cleanup_cache_files">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files">[docs]</a>
     <span class="k">def</span> <span class="nf">cleanup_cache_files</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Override the cleanup_cache_files func, clear raw and compressed</span>
 <span class="sd">        cache files.&quot;&quot;&quot;</span>
@@ -509,7 +536,7 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="NestedDataset.load_from_disk">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.NestedDataset.load_from_disk">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.NestedDataset.load_from_disk">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">load_from_disk</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">Dataset</span><span class="o">.</span><span class="n">load_from_disk</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kargs</span><span class="p">))</span></div>
@@ -517,6 +544,8 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 
 
 
+<div class="viewcode-block" id="nested_query">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.nested_query">[docs]</a>
 <span class="k">def</span> <span class="nf">nested_query</span><span class="p">(</span><span class="n">root_obj</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">NestedDatasetDict</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">,</span>
                                  <span class="n">NestedQueryDict</span><span class="p">],</span> <span class="n">key</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -562,9 +591,12 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
                     <span class="sa">f</span><span class="s1">&#39;info is: </span><span class="si">{</span><span class="n">outer_get_error</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
                 <span class="k">return</span> <span class="kc">None</span>
 
-    <span class="k">return</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="kc">None</span></div>
+
 
 
+<div class="viewcode-block" id="add_same_content_to_new_column">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.data.add_same_content_to_new_column">[docs]</a>
 <span class="k">def</span> <span class="nf">add_same_content_to_new_column</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span>
                                    <span class="n">new_column_name</span><span class="p">,</span>
                                    <span class="n">initial_value</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
@@ -576,7 +608,8 @@ <h1>Source code for data_juicer.core.data</h1><div class="highlight"><pre>
 <span class="sd">    :param initial_value: the initial value of this new column/field.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
     <span class="n">sample</span><span class="p">[</span><span class="n">new_column_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">initial_value</span>
-    <span class="k">return</span> <span class="n">sample</span>
+    <span class="k">return</span> <span class="n">sample</span></div>
+
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/core/executor.html b/_modules/data_juicer/core/executor.html
index e2541f8ba..3c843472c 100644
--- a/_modules/data_juicer/core/executor.html
+++ b/_modules/data_juicer/core/executor.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Executor">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Executor">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor">[docs]</a>
 <span class="k">class</span> <span class="nc">Executor</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This Executor class is used to process a specific dataset.</span>
@@ -114,7 +114,7 @@ <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="Executor.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Executor.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Namespace</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -181,7 +181,7 @@ <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Executor.sample_data">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Executor.sample_data">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor.sample_data">[docs]</a>
     <span class="k">def</span> <span class="nf">sample_data</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                     <span class="n">dataset_to_sample</span><span class="p">:</span> <span class="n">Dataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                     <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -230,7 +230,7 @@ <h1>Source code for data_juicer.core.executor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Executor.run">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Executor.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.executor.Executor.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
             <span class="n">load_data_np</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
             <span class="n">skip_return</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
diff --git a/_modules/data_juicer/core/exporter.html b/_modules/data_juicer/core/exporter.html
index 9da8d360a..bda4b761c 100644
--- a/_modules/data_juicer/core/exporter.html
+++ b/_modules/data_juicer/core/exporter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Exporter">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter">[docs]</a>
 <span class="k">class</span> <span class="nc">Exporter</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The Exporter class is used to export a dataset to files of specific</span>
 <span class="sd">    format.&quot;&quot;&quot;</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
     <span class="n">TiB</span> <span class="o">=</span> <span class="mi">2</span><span class="o">**</span><span class="mi">40</span>  <span class="c1"># 1024*1024*1024*1024</span>
 
 <div class="viewcode-block" id="Exporter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">export_path</span><span class="p">,</span>
                  <span class="n">export_shard_size</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
@@ -278,7 +278,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
                 <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
 
 <div class="viewcode-block" id="Exporter.export">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter.export">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.export">[docs]</a>
     <span class="k">def</span> <span class="nf">export</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Export method for a dataset.</span>
@@ -291,7 +291,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Exporter.export_compute_stats">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter.export_compute_stats">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.export_compute_stats">[docs]</a>
     <span class="k">def</span> <span class="nf">export_compute_stats</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Export method for saving compute status in filters</span>
@@ -306,7 +306,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Exporter.to_jsonl">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter.to_jsonl">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">to_jsonl</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -322,7 +322,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Exporter.to_json">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter.to_json">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.to_json">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">to_json</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -341,7 +341,7 @@ <h1>Source code for data_juicer.core.exporter</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Exporter.to_parquet">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Exporter.to_parquet">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">to_parquet</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">export_path</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/core/monitor.html b/_modules/data_juicer/core/monitor.html
index 10cb2830b..275d3ad56 100644
--- a/_modules/data_juicer/core/monitor.html
+++ b/_modules/data_juicer/core/monitor.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,6 +87,8 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
                                               <span class="n">query_cuda_info</span><span class="p">,</span> <span class="n">query_mem_info</span><span class="p">)</span>
 
 
+<div class="viewcode-block" id="resource_monitor">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.resource_monitor">[docs]</a>
 <span class="k">def</span> <span class="nf">resource_monitor</span><span class="p">(</span><span class="n">mdict</span><span class="p">,</span> <span class="n">interval</span><span class="p">):</span>
     <span class="c1"># function to monitor the resource</span>
     <span class="c1"># interval is the sampling interval</span>
@@ -102,11 +104,12 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
             <span class="k">return</span>
         <span class="k">if</span> <span class="n">stop_sign</span><span class="p">:</span>
             <span class="k">break</span>
-    <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">this_states</span>
+    <span class="n">mdict</span><span class="p">[</span><span class="s1">&#39;resource&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">this_states</span></div>
+
 
 
 <div class="viewcode-block" id="Monitor">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor">[docs]</a>
 <span class="k">class</span> <span class="nc">Monitor</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Monitor resource utilization and other information during the data</span>
@@ -166,13 +169,13 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
     <span class="p">}</span>
 
 <div class="viewcode-block" id="Monitor.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
         <span class="k">pass</span></div>
 
 
 <div class="viewcode-block" id="Monitor.monitor_all_resources">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.monitor_all_resources">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_all_resources">[docs]</a>
     <span class="k">def</span> <span class="nf">monitor_all_resources</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Detect the resource utilization of all distributed nodes.</span>
@@ -182,7 +185,7 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Monitor.monitor_current_resources">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.monitor_current_resources">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_current_resources">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">monitor_current_resources</span><span class="p">():</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -218,7 +221,7 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Monitor.draw_resource_util_graph">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.draw_resource_util_graph">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.draw_resource_util_graph">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">draw_resource_util_graph</span><span class="p">(</span><span class="n">resource_util_list</span><span class="p">,</span> <span class="n">store_dir</span><span class="p">):</span>
         <span class="kn">import</span> <span class="nn">matplotlib.pyplot</span> <span class="k">as</span> <span class="nn">plt</span>
@@ -239,7 +242,7 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Monitor.analyze_resource_util_list">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.analyze_resource_util_list">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_resource_util_list">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">analyze_resource_util_list</span><span class="p">(</span><span class="n">resource_util_list</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -253,7 +256,7 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Monitor.analyze_single_resource_util">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.analyze_single_resource_util">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_single_resource_util">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">analyze_single_resource_util</span><span class="p">(</span><span class="n">resource_util_dict</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -285,7 +288,7 @@ <h1>Source code for data_juicer.core.monitor</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Monitor.monitor_func">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Monitor.monitor_func">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_func">[docs]</a>
     <span class="nd">@staticmethod</span>
     <span class="k">def</span> <span class="nf">monitor_func</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="n">args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">sample_interval</span><span class="o">=</span><span class="mf">0.5</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
diff --git a/_modules/data_juicer/core/ray_data.html b/_modules/data_juicer/core/ray_data.html
new file mode 100644
index 000000000..3cd1161ec
--- /dev/null
+++ b/_modules/data_juicer/core/ray_data.html
@@ -0,0 +1,411 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.core.ray_data &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.core.ray_data</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.core.ray_data</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">__future__</span> <span class="kn">import</span> <span class="n">annotations</span>
+
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">from</span> <span class="nn">functools</span> <span class="kn">import</span> <span class="n">partial</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Literal</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">pyarrow</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer</span> <span class="kn">import</span> <span class="n">cuda_device_count</span>
+<span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">DJDataset</span>
+<span class="kn">from</span> <span class="nn">data_juicer.ops</span> <span class="kn">import</span> <span class="n">Filter</span><span class="p">,</span> <span class="n">Mapper</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.process_utils</span> <span class="kn">import</span> <span class="n">calculate_np</span>
+
+<span class="n">rd</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;rd&#39;</span><span class="p">,</span> <span class="s1">&#39;ray.data&#39;</span><span class="p">)</span>
+<span class="n">ds</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ds&#39;</span><span class="p">,</span> <span class="s1">&#39;ray.data.datasource&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="get_abs_path">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.get_abs_path">[docs]</a>
+<span class="k">def</span> <span class="nf">get_abs_path</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">dataset_dir</span><span class="p">):</span>
+    <span class="n">full_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">dataset_dir</span><span class="p">,</span> <span class="n">path</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">full_path</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">full_path</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">path</span></div>
+
+
+
+<div class="viewcode-block" id="convert_to_absolute_paths">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.convert_to_absolute_paths">[docs]</a>
+<span class="k">def</span> <span class="nf">convert_to_absolute_paths</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span> <span class="n">dataset_dir</span><span class="p">,</span> <span class="n">path_keys</span><span class="p">):</span>
+    <span class="n">samples</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">to_pydict</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">path_keys</span><span class="p">:</span>
+        <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">])):</span>
+            <span class="n">paths</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">paths</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_abs_path</span><span class="p">(</span><span class="n">paths</span><span class="p">,</span> <span class="n">dataset_dir</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">paths</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+                <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">idx</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">get_abs_path</span><span class="p">(</span><span class="n">item</span><span class="p">,</span> <span class="n">dataset_dir</span><span class="p">)</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">paths</span>
+                <span class="p">]</span>
+    <span class="k">return</span> <span class="n">pyarrow</span><span class="o">.</span><span class="n">Table</span><span class="o">.</span><span class="n">from_pydict</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span></div>
+
+
+
+<span class="c1"># TODO: check path for nestdataset</span>
+<div class="viewcode-block" id="set_dataset_to_absolute_path">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.set_dataset_to_absolute_path">[docs]</a>
+<span class="k">def</span> <span class="nf">set_dataset_to_absolute_path</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">cfg</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Set all the path in input data to absolute path.</span>
+<span class="sd">    Checks dataset_dir and project_dir for valid paths.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">path_keys</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">columns</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">columns</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="p">[</span><span class="n">cfg</span><span class="o">.</span><span class="n">video_key</span><span class="p">,</span> <span class="n">cfg</span><span class="o">.</span><span class="n">image_key</span><span class="p">,</span> <span class="n">cfg</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]:</span>
+        <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">columns</span><span class="p">:</span>
+            <span class="n">path_keys</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">path_keys</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">dataset_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span><span class="n">partial</span><span class="p">(</span><span class="n">convert_to_absolute_paths</span><span class="p">,</span>
+                                              <span class="n">dataset_dir</span><span class="o">=</span><span class="n">dataset_dir</span><span class="p">,</span>
+                                              <span class="n">path_keys</span><span class="o">=</span><span class="n">path_keys</span><span class="p">),</span>
+                                      <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">,</span>
+                                      <span class="n">zero_copy_batch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">dataset</span></div>
+
+
+
+<div class="viewcode-block" id="preprocess_dataset">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.preprocess_dataset">[docs]</a>
+<span class="k">def</span> <span class="nf">preprocess_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">rd</span><span class="o">.</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">cfg</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">rd</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+    <span class="n">columns</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">columns</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">dataset_path</span><span class="p">:</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">set_dataset_to_absolute_path</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">cfg</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">Fields</span><span class="o">.</span><span class="n">stats</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">columns</span><span class="p">:</span>
+
+        <span class="k">def</span> <span class="nf">process_batch_arrow</span><span class="p">(</span><span class="n">table</span><span class="p">:</span> <span class="n">pyarrow</span><span class="o">.</span><span class="n">Table</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">pyarrow</span><span class="o">.</span><span class="n">Table</span><span class="p">:</span>
+            <span class="n">new_column_data</span> <span class="o">=</span> <span class="p">[{}</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">table</span><span class="p">))]</span>
+            <span class="n">new_talbe</span> <span class="o">=</span> <span class="n">table</span><span class="o">.</span><span class="n">append_column</span><span class="p">(</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">,</span> <span class="p">[</span><span class="n">new_column_data</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">new_talbe</span>
+
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span><span class="n">process_batch_arrow</span><span class="p">,</span>
+                                      <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">dataset</span></div>
+
+
+
+<div class="viewcode-block" id="get_num_gpus">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.get_num_gpus">[docs]</a>
+<span class="k">def</span> <span class="nf">get_num_gpus</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">op_proc</span><span class="p">):</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">op</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">():</span>
+        <span class="k">return</span> <span class="mi">0</span>
+    <span class="n">proc_per_gpu</span> <span class="o">=</span> <span class="n">op_proc</span> <span class="o">/</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+    <span class="k">return</span> <span class="mf">1.0</span> <span class="o">/</span> <span class="n">proc_per_gpu</span></div>
+
+
+
+<div class="viewcode-block" id="filter_batch">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.filter_batch">[docs]</a>
+<span class="k">def</span> <span class="nf">filter_batch</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">filter_func</span><span class="p">):</span>
+    <span class="n">mask</span> <span class="o">=</span> <span class="n">pyarrow</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">filter_func</span><span class="p">(</span><span class="n">batch</span><span class="o">.</span><span class="n">to_pydict</span><span class="p">()))</span>
+    <span class="k">return</span> <span class="n">batch</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">mask</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="RayDataset">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.RayDataset">[docs]</a>
+<span class="k">class</span> <span class="nc">RayDataset</span><span class="p">(</span><span class="n">DJDataset</span><span class="p">):</span>
+
+<div class="viewcode-block" id="RayDataset.__init__">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.RayDataset.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">dataset</span><span class="p">:</span> <span class="n">rd</span><span class="o">.</span><span class="n">Dataset</span><span class="p">,</span>
+                 <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="n">preprocess_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">cfg</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">cfg</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">np</span></div>
+
+
+<div class="viewcode-block" id="RayDataset.process">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.RayDataset.process">[docs]</a>
+    <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                <span class="n">operators</span><span class="p">,</span>
+                <span class="o">*</span><span class="p">,</span>
+                <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">checkpointer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">DJDataset</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">operators</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">operators</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="n">operators</span> <span class="o">=</span> <span class="p">[</span><span class="n">operators</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">operators</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_run_single_op</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span></div>
+
+
+    <span class="k">def</span> <span class="nf">_run_single_op</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op</span><span class="p">):</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="n">calculate_np</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="n">op</span><span class="o">.</span><span class="n">mem_required</span><span class="p">,</span> <span class="n">op</span><span class="o">.</span><span class="n">cpu_required</span><span class="p">,</span>
+                               <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">,</span> <span class="n">op</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
+        <span class="n">num_gpus</span> <span class="o">=</span> <span class="n">get_num_gpus</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">op_proc</span><span class="p">)</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">batch_size</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="s1">&#39;batch_size&#39;</span><span class="p">,</span>
+                                 <span class="mi">1</span><span class="p">)</span> <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">()</span> <span class="k">else</span> <span class="mi">1</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Mapper</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">():</span>
+                    <span class="n">op_kwargs</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">_op_cfg</span><span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">_name</span><span class="p">]</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span>
+                        <span class="n">op</span><span class="o">.</span><span class="vm">__class__</span><span class="p">,</span>
+                        <span class="n">fn_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                        <span class="n">fn_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                        <span class="n">fn_constructor_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                        <span class="n">fn_constructor_kwargs</span><span class="o">=</span><span class="n">op_kwargs</span><span class="p">,</span>
+                        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                        <span class="n">num_gpus</span><span class="o">=</span><span class="n">num_gpus</span><span class="p">,</span>
+                        <span class="n">concurrency</span><span class="o">=</span><span class="n">op_proc</span><span class="p">,</span>
+                        <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">,</span>
+                                                      <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                                                      <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">,</span>
+                                                      <span class="n">num_gpus</span><span class="o">=</span><span class="n">num_gpus</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Filter</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">():</span>
+                    <span class="n">op_kwargs</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">_op_cfg</span><span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">_name</span><span class="p">]</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span>
+                        <span class="n">op</span><span class="o">.</span><span class="vm">__class__</span><span class="p">,</span>
+                        <span class="n">fn_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                        <span class="n">fn_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                        <span class="n">fn_constructor_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                        <span class="n">fn_constructor_kwargs</span><span class="o">=</span><span class="n">op_kwargs</span><span class="p">,</span>
+                        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                        <span class="n">num_gpus</span><span class="o">=</span><span class="n">num_gpus</span><span class="p">,</span>
+                        <span class="n">concurrency</span><span class="o">=</span><span class="n">op_proc</span><span class="p">,</span>
+                        <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">,</span>
+                                                      <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                                                      <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">,</span>
+                                                      <span class="n">num_gpus</span><span class="o">=</span><span class="n">num_gpus</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">stats_export_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">write_json</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">stats_export_path</span><span class="p">,</span>
+                                         <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">is_batched_op</span><span class="p">():</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">map_batches</span><span class="p">(</span><span class="n">partial</span><span class="p">(</span>
+                        <span class="n">filter_batch</span><span class="p">,</span> <span class="n">filter_func</span><span class="o">=</span><span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">),</span>
+                                                      <span class="n">batch_format</span><span class="o">=</span><span class="s1">&#39;pyarrow&#39;</span><span class="p">,</span>
+                                                      <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+                                                      <span class="n">num_gpus</span><span class="o">=</span><span class="n">num_gpus</span><span class="p">,</span>
+                                                      <span class="n">zero_copy_batch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">filter</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span>
+                    <span class="s1">&#39;Ray executor only support Filter and Mapper OPs for now&#39;</span><span class="p">)</span>
+                <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;An error occurred during Op [</span><span class="si">{</span><span class="n">op</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+            <span class="kn">import</span> <span class="nn">traceback</span>
+            <span class="n">traceback</span><span class="o">.</span><span class="n">print_exc</span><span class="p">()</span>
+            <span class="n">exit</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+<div class="viewcode-block" id="RayDataset.read_json">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.RayDataset.read_json">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">read_json</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">paths</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="n">RayDataset</span><span class="p">:</span>
+        <span class="c1"># Note: a temp solution for reading json stream</span>
+        <span class="c1"># TODO: replace with ray.data.read_json_stream once it is available</span>
+        <span class="kn">import</span> <span class="nn">pyarrow.json</span> <span class="k">as</span> <span class="nn">js</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">js</span><span class="o">.</span><span class="n">open_json</span>
+            <span class="k">return</span> <span class="n">read_json_stream</span><span class="p">(</span><span class="n">paths</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">AttributeError</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">rd</span><span class="o">.</span><span class="n">read_json</span><span class="p">(</span><span class="n">paths</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="JSONStreamDatasource">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.JSONStreamDatasource">[docs]</a>
+<span class="k">class</span> <span class="nc">JSONStreamDatasource</span><span class="p">(</span><span class="n">ds</span><span class="o">.</span><span class="n">JSONDatasource</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    A temp Datasource for reading json stream.</span>
+
+<span class="sd">    Note:</span>
+
+<span class="sd">        Depends on a customized `pyarrow` with `open_json` method.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">_read_stream</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">f</span><span class="p">:</span> <span class="s1">&#39;pyarrow.NativeFile&#39;</span><span class="p">,</span> <span class="n">path</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="kn">from</span> <span class="nn">pyarrow.json</span> <span class="kn">import</span> <span class="n">open_json</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">reader</span> <span class="o">=</span> <span class="n">open_json</span><span class="p">(</span>
+                <span class="n">f</span><span class="p">,</span>
+                <span class="n">read_options</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">read_options</span><span class="p">,</span>
+                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arrow_json_args</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">schema</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">batch</span> <span class="o">=</span> <span class="n">reader</span><span class="o">.</span><span class="n">read_next_batch</span><span class="p">()</span>
+                    <span class="n">table</span> <span class="o">=</span> <span class="n">pyarrow</span><span class="o">.</span><span class="n">Table</span><span class="o">.</span><span class="n">from_batches</span><span class="p">([</span><span class="n">batch</span><span class="p">],</span> <span class="n">schema</span><span class="o">=</span><span class="n">schema</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="n">schema</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                        <span class="n">schema</span> <span class="o">=</span> <span class="n">table</span><span class="o">.</span><span class="n">schema</span>
+                    <span class="k">yield</span> <span class="n">table</span>
+                <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
+                    <span class="k">return</span>
+        <span class="k">except</span> <span class="n">pyarrow</span><span class="o">.</span><span class="n">lib</span><span class="o">.</span><span class="n">ArrowInvalid</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Failed to read JSON file: </span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span> <span class="kn">from</span> <span class="nn">e</span></div>
+
+
+
+<div class="viewcode-block" id="read_json_stream">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_data.read_json_stream">[docs]</a>
+<span class="k">def</span> <span class="nf">read_json_stream</span><span class="p">(</span>
+    <span class="n">paths</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+    <span class="o">*</span><span class="p">,</span>
+    <span class="n">filesystem</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s1">&#39;pyarrow.fs.FileSystem&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">parallelism</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+    <span class="n">ray_remote_args</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">arrow_open_stream_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">meta_provider</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="n">partition_filter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="n">partitioning</span><span class="o">=</span><span class="n">ds</span><span class="o">.</span><span class="n">partitioning</span><span class="o">.</span><span class="n">Partitioning</span><span class="p">(</span><span class="s1">&#39;hive&#39;</span><span class="p">),</span>
+    <span class="n">include_paths</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="n">ignore_missing_paths</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="n">shuffle</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Literal</span><span class="p">[</span><span class="s1">&#39;files&#39;</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">file_extensions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;json&#39;</span><span class="p">,</span> <span class="s1">&#39;jsonl&#39;</span><span class="p">],</span>
+    <span class="n">concurrency</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">override_num_blocks</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="o">**</span><span class="n">arrow_json_args</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">rd</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+    <span class="k">if</span> <span class="n">meta_provider</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">meta_provider</span> <span class="o">=</span> <span class="n">ds</span><span class="o">.</span><span class="n">file_meta_provider</span><span class="o">.</span><span class="n">DefaultFileMetadataProvider</span><span class="p">()</span>
+
+    <span class="n">datasource</span> <span class="o">=</span> <span class="n">JSONStreamDatasource</span><span class="p">(</span>
+        <span class="n">paths</span><span class="p">,</span>
+        <span class="n">arrow_json_args</span><span class="o">=</span><span class="n">arrow_json_args</span><span class="p">,</span>
+        <span class="n">filesystem</span><span class="o">=</span><span class="n">filesystem</span><span class="p">,</span>
+        <span class="n">open_stream_args</span><span class="o">=</span><span class="n">arrow_open_stream_args</span><span class="p">,</span>
+        <span class="n">meta_provider</span><span class="o">=</span><span class="n">meta_provider</span><span class="p">,</span>
+        <span class="n">partition_filter</span><span class="o">=</span><span class="n">partition_filter</span><span class="p">,</span>
+        <span class="n">partitioning</span><span class="o">=</span><span class="n">partitioning</span><span class="p">,</span>
+        <span class="n">ignore_missing_paths</span><span class="o">=</span><span class="n">ignore_missing_paths</span><span class="p">,</span>
+        <span class="n">shuffle</span><span class="o">=</span><span class="n">shuffle</span><span class="p">,</span>
+        <span class="n">include_paths</span><span class="o">=</span><span class="n">include_paths</span><span class="p">,</span>
+        <span class="n">file_extensions</span><span class="o">=</span><span class="n">file_extensions</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">rd</span><span class="o">.</span><span class="n">read_datasource</span><span class="p">(</span>
+        <span class="n">datasource</span><span class="p">,</span>
+        <span class="n">parallelism</span><span class="o">=</span><span class="n">parallelism</span><span class="p">,</span>
+        <span class="n">ray_remote_args</span><span class="o">=</span><span class="n">ray_remote_args</span><span class="p">,</span>
+        <span class="n">concurrency</span><span class="o">=</span><span class="n">concurrency</span><span class="p">,</span>
+        <span class="n">override_num_blocks</span><span class="o">=</span><span class="n">override_num_blocks</span><span class="p">,</span>
+    <span class="p">)</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/ray_executor.html b/_modules/data_juicer/core/ray_executor.html
new file mode 100644
index 000000000..beb8860d3
--- /dev/null
+++ b/_modules/data_juicer/core/ray_executor.html
@@ -0,0 +1,210 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.core.ray_executor &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.core.ray_executor</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.core.ray_executor</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">time</span>
+
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.config</span> <span class="kn">import</span> <span class="n">init_configs</span>
+<span class="kn">from</span> <span class="nn">data_juicer.core.ray_data</span> <span class="kn">import</span> <span class="n">RayDataset</span>
+<span class="kn">from</span> <span class="nn">data_juicer.ops</span> <span class="kn">import</span> <span class="n">load_ops</span>
+<span class="kn">from</span> <span class="nn">data_juicer.ops.op_fusion</span> <span class="kn">import</span> <span class="n">fuse_operators</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span> <span class="nn">.adapter</span> <span class="kn">import</span> <span class="n">Adapter</span>
+
+<span class="n">ray</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ray&#39;</span><span class="p">,</span> <span class="s1">&#39;ray&#39;</span><span class="p">)</span>
+<span class="n">rd</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;rd&#39;</span><span class="p">,</span> <span class="s1">&#39;ray.data&#39;</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="RayExecutor">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor">[docs]</a>
+<span class="k">class</span> <span class="nc">RayExecutor</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Executor based on Ray.</span>
+
+<span class="sd">    Run Data-Juicer data processing in a distributed cluster.</span>
+
+<span class="sd">        1. Support Filter, Mapper and Exact Deduplicator operators for now.</span>
+<span class="sd">        2. Only support loading `.json` files.</span>
+<span class="sd">        3. Advanced functions such as checkpoint, tracer are not supported.</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="RayExecutor.__init__">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param cfg: optional config dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span> <span class="o">=</span> <span class="n">init_configs</span><span class="p">()</span> <span class="k">if</span> <span class="n">cfg</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">cfg</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">work_dir</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">work_dir</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">adapter</span> <span class="o">=</span> <span class="n">Adapter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="p">)</span>
+
+        <span class="c1"># init ray</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Initing Ray ...&#39;</span><span class="p">)</span>
+        <span class="n">ray</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">ray_address</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="RayExecutor.run">
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.run">[docs]</a>
+    <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">load_data_np</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Running the dataset process pipeline.</span>
+
+<span class="sd">        :param load_data_np: number of workers when loading the dataset.</span>
+<span class="sd">        :return: processed dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># 1. load data</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading dataset with Ray...&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;generated_dataset_config&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">):</span>
+            <span class="n">generated_dataset_config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">generated_dataset_config</span>
+            <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">generated_dataset_config</span><span class="p">,</span>
+                              <span class="nb">dict</span><span class="p">)</span> <span class="ow">and</span> <span class="s1">&#39;type&#39;</span> <span class="ow">in</span> <span class="n">generated_dataset_config</span>
+            <span class="n">args</span> <span class="o">=</span> <span class="n">generated_dataset_config</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
+            <span class="n">obj_name</span> <span class="o">=</span> <span class="n">args</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;type&#39;</span><span class="p">)</span>
+            <span class="kn">from</span> <span class="nn">data_juicer.format.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">FORMATTERS</span><span class="o">.</span><span class="n">modules</span><span class="p">[</span><span class="n">obj_name</span><span class="p">](</span><span class="o">**</span><span class="n">args</span><span class="p">)</span><span class="o">.</span><span class="n">load_dataset</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">RayDataset</span><span class="o">.</span><span class="n">read_json</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">)</span>
+
+        <span class="c1"># convert all the path in dataset to absolute path</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">RayDataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="p">)</span>
+        <span class="c1"># 2. extract processes</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Preparing process operators...&#39;</span><span class="p">)</span>
+        <span class="n">ops</span> <span class="o">=</span> <span class="n">load_ops</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">process</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">op_fusion</span><span class="p">:</span>
+            <span class="n">probe_res</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">fusion_strategy</span> <span class="o">==</span> <span class="s1">&#39;probe&#39;</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Probe the OP speed for OP reordering...&#39;</span><span class="p">)</span>
+                <span class="n">probe_res</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">adapter</span><span class="o">.</span><span class="n">probe_small_batch</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">ops</span><span class="p">)</span>
+
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Start OP fusion and reordering with strategy &#39;</span>
+                        <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">fusion_strategy</span><span class="si">}</span><span class="s1">]...&#39;</span><span class="p">)</span>
+            <span class="n">ops</span> <span class="o">=</span> <span class="n">fuse_operators</span><span class="p">(</span><span class="n">ops</span><span class="p">,</span> <span class="n">probe_res</span><span class="p">)</span>
+
+        <span class="c1"># 3. data process</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Processing data...&#39;</span><span class="p">)</span>
+        <span class="n">tstart</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">dataset</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">ops</span><span class="p">)</span>
+        <span class="n">tend</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;All Ops are done in </span><span class="si">{</span><span class="n">tend</span><span class="w"> </span><span class="o">-</span><span class="w"> </span><span class="n">tstart</span><span class="si">:</span><span class="s1">.3f</span><span class="si">}</span><span class="s1">s.&#39;</span><span class="p">)</span>
+
+        <span class="c1"># 4. data export</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Exporting dataset to disk...&#39;</span><span class="p">)</span>
+        <span class="n">dataset</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">write_json</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">cfg</span><span class="o">.</span><span class="n">export_path</span><span class="p">,</span> <span class="n">force_ascii</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">dataset</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/core/tracer.html b/_modules/data_juicer/core/tracer.html
index 1cf9796d9..97d9f80b4 100644
--- a/_modules/data_juicer/core/tracer.html
+++ b/_modules/data_juicer/core/tracer.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Tracer">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Tracer">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer">[docs]</a>
 <span class="k">class</span> <span class="nc">Tracer</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    The tracer to trace the sample changes before and after an operator</span>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="Tracer.__init__">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Tracer.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">work_dir</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">10</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -112,7 +112,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Tracer.trace_mapper">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Tracer.trace_mapper">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper">[docs]</a>
     <span class="k">def</span> <span class="nf">trace_mapper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
                      <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -165,7 +165,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Tracer.trace_batch_mapper">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Tracer.trace_batch_mapper">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper">[docs]</a>
     <span class="k">def</span> <span class="nf">trace_batch_mapper</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
                            <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">text_key</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -208,7 +208,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Tracer.trace_filter">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Tracer.trace_filter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter">[docs]</a>
     <span class="k">def</span> <span class="nf">trace_filter</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">previous_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
                      <span class="n">processed_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -271,7 +271,7 @@ <h1>Source code for data_juicer.core.tracer</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Tracer.trace_deduplicator">
-<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.Tracer.trace_deduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator">[docs]</a>
     <span class="k">def</span> <span class="nf">trace_deduplicator</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">dup_pairs</span><span class="p">:</span> <span class="nb">list</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compare datasets before and after a Deduplicator.</span>
diff --git a/_modules/data_juicer/format/csv_formatter.html b/_modules/data_juicer/format/csv_formatter.html
index e0b65d2fc..4ae9ca607 100644
--- a/_modules/data_juicer/format/csv_formatter.html
+++ b/_modules/data_juicer/format/csv_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight">
 
 
 <div class="viewcode-block" id="CsvFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.CsvFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">CsvFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.csv_formatter</h1><div class="highlight">
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.csv&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="CsvFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.CsvFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/format/empty_formatter.html b/_modules/data_juicer/format/empty_formatter.html
index 413aa430c..9cfe0388e 100644
--- a/_modules/data_juicer/format/empty_formatter.html
+++ b/_modules/data_juicer/format/empty_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
 
 
 <div class="viewcode-block" id="EmptyFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.EmptyFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">EmptyFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[]</span>
 
 <div class="viewcode-block" id="EmptyFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">length</span><span class="p">,</span> <span class="n">feature_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -118,7 +118,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
         <span class="k">return</span> <span class="kc">None</span>
 
 <div class="viewcode-block" id="EmptyFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
         <span class="n">data_dict</span> <span class="o">=</span> <span class="p">{}</span>
         <span class="n">features</span> <span class="o">=</span> <span class="n">Features</span><span class="p">()</span>
@@ -139,7 +139,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
 
 
 <div class="viewcode-block" id="RayEmptyFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RayEmptyFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">RayEmptyFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -148,7 +148,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[]</span>
 
 <div class="viewcode-block" id="RayEmptyFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">length</span><span class="p">,</span> <span class="n">feature_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -167,7 +167,7 @@ <h1>Source code for data_juicer.format.empty_formatter</h1><div class="highlight
         <span class="k">return</span> <span class="p">{}</span>
 
 <div class="viewcode-block" id="RayEmptyFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">feature_keys</span><span class="p">):</span>
             <span class="n">df</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">({</span>
diff --git a/_modules/data_juicer/format/formatter.html b/_modules/data_juicer/format/formatter.html
index 2a899dd62..6516c4258 100644
--- a/_modules/data_juicer/format/formatter.html
+++ b/_modules/data_juicer/format/formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,21 +91,27 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 <span class="n">FORMATTERS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Formatters&#39;</span><span class="p">)</span>
 
 
+<div class="viewcode-block" id="BaseFormatter">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.BaseFormatter">[docs]</a>
 <span class="k">class</span> <span class="nc">BaseFormatter</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Base class to load dataset.&quot;&quot;&quot;</span>
 
+<div class="viewcode-block" id="BaseFormatter.load_dataset">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
+</div>
+
 
 
 <div class="viewcode-block" id="LocalFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.LocalFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter">[docs]</a>
 <span class="k">class</span> <span class="nc">LocalFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from local files or local</span>
 <span class="sd">    directory.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="LocalFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.LocalFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
@@ -136,7 +142,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="LocalFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a dataset from dataset file or dataset directory, and unify its</span>
@@ -170,13 +176,13 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="RemoteFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RemoteFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter">[docs]</a>
 <span class="k">class</span> <span class="nc">RemoteFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class is used to load a dataset from repository of huggingface</span>
 <span class="sd">    hub.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RemoteFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                  <span class="n">text_keys</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -195,7 +201,7 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 <div class="viewcode-block" id="RemoteFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a dataset from HuggingFace, and unify its format.</span>
@@ -217,6 +223,8 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
 
 
 
+<div class="viewcode-block" id="add_suffixes">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.add_suffixes">[docs]</a>
 <span class="k">def</span> <span class="nf">add_suffixes</span><span class="p">(</span><span class="n">datasets</span><span class="p">:</span> <span class="n">DatasetDict</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Add suffix filed to datasets.</span>
@@ -238,9 +246,12 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
                                    <span class="n">desc</span><span class="o">=</span><span class="s1">&#39;Adding new column for suffix&#39;</span><span class="p">)</span>
     <span class="n">datasets</span> <span class="o">=</span> <span class="n">concatenate_datasets</span><span class="p">([</span><span class="n">ds</span> <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">ds</span> <span class="ow">in</span> <span class="n">datasets</span><span class="o">.</span><span class="n">items</span><span class="p">()])</span>
     <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
-    <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">NestedDataset</span><span class="p">(</span><span class="n">datasets</span><span class="p">)</span></div>
+
 
 
+<div class="viewcode-block" id="unify_format">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.unify_format">[docs]</a>
 <span class="k">def</span> <span class="nf">unify_format</span><span class="p">(</span>
     <span class="n">dataset</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
     <span class="n">text_keys</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;text&#39;</span><span class="p">,</span>
@@ -362,9 +373,12 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
                        <span class="s1">&#39;to their absolute versions. Data of other modalities &#39;</span>
                        <span class="s1">&#39;might not be able to find by Data-Juicer.&#39;</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">dataset</span>
+    <span class="k">return</span> <span class="n">dataset</span></div>
 
 
+
+<div class="viewcode-block" id="load_formatter">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.formatter.load_formatter">[docs]</a>
 <span class="k">def</span> <span class="nf">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span>
                    <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                    <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -420,7 +434,8 @@ <h1>Source code for data_juicer.format.formatter</h1><div class="highlight"><pre
                          <span class="sa">f</span><span class="s1">&#39;It might be because Data-Juicer doesn</span><span class="se">\&#39;</span><span class="s1">t support &#39;</span>
                          <span class="sa">f</span><span class="s1">&#39;the format of this dataset, or the path of this &#39;</span>
                          <span class="sa">f</span><span class="s1">&#39;dataset is incorrect.Please check if it</span><span class="se">\&#39;</span><span class="s1">s a valid &#39;</span>
-                         <span class="sa">f</span><span class="s1">&#39;dataset path and retry.&#39;</span><span class="p">)</span>
+                         <span class="sa">f</span><span class="s1">&#39;dataset path and retry.&#39;</span><span class="p">)</span></div>
+
 </pre></div>
 
            </div>
diff --git a/_modules/data_juicer/format/json_formatter.html b/_modules/data_juicer/format/json_formatter.html
index f9c459c27..d48b923a1 100644
--- a/_modules/data_juicer/format/json_formatter.html
+++ b/_modules/data_juicer/format/json_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"
 
 
 <div class="viewcode-block" id="JsonFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.JsonFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">JsonFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.json_formatter</h1><div class="highlight"
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.json&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl&#39;</span><span class="p">,</span> <span class="s1">&#39;.jsonl.zst&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="JsonFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.JsonFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/format/load.html b/_modules/data_juicer/format/load.html
index cc35db1ea..e72c95466 100644
--- a/_modules/data_juicer/format/load.html
+++ b/_modules/data_juicer/format/load.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -82,7 +82,7 @@ <h1>Source code for data_juicer.format.load</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="load_formatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.load_formatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.load.load_formatter">[docs]</a>
 <span class="k">def</span> <span class="nf">load_formatter</span><span class="p">(</span><span class="n">dataset_path</span><span class="p">,</span>
                    <span class="n">generated_dataset_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
                    <span class="n">text_keys</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
diff --git a/_modules/data_juicer/format/mixture_formatter.html b/_modules/data_juicer/format/mixture_formatter.html
index de7f45367..e2f447d9f 100644
--- a/_modules/data_juicer/format/mixture_formatter.html
+++ b/_modules/data_juicer/format/mixture_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,14 +88,14 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="MixtureFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter">[docs]</a>
 <span class="k">class</span> <span class="nc">MixtureFormatter</span><span class="p">(</span><span class="n">BaseFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;The class mixes multiple datasets by randomly selecting samples from</span>
 <span class="sd">    every dataset and merging them, and then exports the merged datasset as a</span>
 <span class="sd">    new mixed dataset.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="MixtureFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -173,7 +173,7 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
         <span class="k">return</span> <span class="n">prefixes</span><span class="p">,</span> <span class="n">weights</span>
 
 <div class="viewcode-block" id="MixtureFormatter.random_sample">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample">[docs]</a>
     <span class="nd">@classmethod</span>
     <span class="k">def</span> <span class="nf">random_sample</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">weight</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">sample_number</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
@@ -208,7 +208,7 @@ <h1>Source code for data_juicer.format.mixture_formatter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="MixtureFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a mixed dataset.</span>
diff --git a/_modules/data_juicer/format/parquet_formatter.html b/_modules/data_juicer/format/parquet_formatter.html
index 02a158c3a..99b1dfabd 100644
--- a/_modules/data_juicer/format/parquet_formatter.html
+++ b/_modules/data_juicer/format/parquet_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="ParquetFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.ParquetFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">ParquetFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.parquet_formatter</h1><div class="highlig
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.parquet&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="ParquetFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/format/text_formatter.html b/_modules/data_juicer/format/text_formatter.html
index 212486dd4..20776babe 100644
--- a/_modules/data_juicer/format/text_formatter.html
+++ b/_modules/data_juicer/format/text_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,6 +91,8 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
 <span class="kn">from</span> <span class="nn">.formatter</span> <span class="kn">import</span> <span class="n">FORMATTERS</span><span class="p">,</span> <span class="n">LocalFormatter</span><span class="p">,</span> <span class="n">add_suffixes</span><span class="p">,</span> <span class="n">unify_format</span>
 
 
+<div class="viewcode-block" id="extract_txt_from_docx">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx">[docs]</a>
 <span class="k">def</span> <span class="nf">extract_txt_from_docx</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="n">tgt_path</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Extract text from a docx file and save to target path.</span>
@@ -102,9 +104,12 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
     <span class="n">text</span> <span class="o">=</span> <span class="p">[</span><span class="n">para</span><span class="o">.</span><span class="n">text</span> <span class="k">for</span> <span class="n">para</span> <span class="ow">in</span> <span class="n">doc</span><span class="o">.</span><span class="n">paragraphs</span> <span class="k">if</span> <span class="n">para</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()]</span>
     <span class="n">base_fn</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.docx&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)</span>
     <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tgt_path</span><span class="p">,</span> <span class="n">base_fn</span><span class="p">),</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-        <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span>
+        <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span></div>
 
 
+
+<div class="viewcode-block" id="extract_txt_from_pdf">
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf">[docs]</a>
 <span class="k">def</span> <span class="nf">extract_txt_from_pdf</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="n">tgt_path</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Extract text from a pdf file and save to target path.</span>
@@ -128,11 +133,12 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
                 <span class="n">text</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">page_text</span><span class="p">)</span>
         <span class="n">base_fn</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">fn</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.pdf&#39;</span><span class="p">,</span> <span class="s1">&#39;.txt&#39;</span><span class="p">)</span>
         <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">tgt_path</span><span class="p">,</span> <span class="n">base_fn</span><span class="p">),</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">f</span><span class="p">:</span>
-            <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span>
+            <span class="n">f</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">text</span><span class="p">))</span></div>
+
 
 
 <div class="viewcode-block" id="TextFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TextFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">TextFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -154,7 +160,7 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
     <span class="p">]</span>
 
 <div class="viewcode-block" id="TextFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TextFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">dataset_path</span><span class="p">,</span>
                  <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -181,7 +187,7 @@ <h1>Source code for data_juicer.format.text_formatter</h1><div class="highlight"
 
 
 <div class="viewcode-block" id="TextFormatter.load_dataset">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">[docs]</a>
     <span class="k">def</span> <span class="nf">load_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">global_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dataset</span><span class="p">:</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Load a dataset from local text-type files.</span>
diff --git a/_modules/data_juicer/format/tsv_formatter.html b/_modules/data_juicer/format/tsv_formatter.html
index b2b942870..52c4bc625 100644
--- a/_modules/data_juicer/format/tsv_formatter.html
+++ b/_modules/data_juicer/format/tsv_formatter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight">
 
 
 <div class="viewcode-block" id="TsvFormatter">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TsvFormatter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter">[docs]</a>
 <span class="nd">@FORMATTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
 <span class="k">class</span> <span class="nc">TsvFormatter</span><span class="p">(</span><span class="n">LocalFormatter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.format.tsv_formatter</h1><div class="highlight">
     <span class="n">SUFFIXES</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;.tsv&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="TsvFormatter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.TsvFormatter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset_path</span><span class="p">,</span> <span class="n">suffixes</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
diff --git a/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html b/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html
index 8eb77bebb..1bbc5da6c 100644
--- a/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="EntityAttributeAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">EntityAttributeAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -135,7 +135,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
     <span class="n">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\s*</span><span class="si">{entity}</span><span class="s1">\s*\#\#\s*</span><span class="si">{attribute}</span><span class="s1">\s*(.*?)\Z&#39;</span>  <span class="c1"># noqa: E501</span>
 
 <div class="viewcode-block" id="EntityAttributeAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -228,7 +228,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 
 <div class="viewcode-block" id="EntityAttributeAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
@@ -241,7 +241,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 
 <div class="viewcode-block" id="EntityAttributeAggregator.attribute_summary">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary">[docs]</a>
     <span class="k">def</span> <span class="nf">attribute_summary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sub_docs</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_docs</span><span class="p">:</span>
             <span class="k">return</span> <span class="s1">&#39;&#39;</span>
@@ -278,7 +278,7 @@ <h1>Source code for data_juicer.ops.aggregator.entity_attribute_aggregator</h1><
 
 
 <div class="viewcode-block" id="EntityAttributeAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="c1"># if not batched sample</span>
diff --git a/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html b/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html
index 48d679016..c0954deb5 100644
--- a/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">MostRelavantEntitiesAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -126,7 +126,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
     <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\#\s*列表\s*(.*?)\Z&#39;</span>
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -201,7 +201,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
@@ -215,7 +215,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.query_most_relavant_entities">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">[docs]</a>
     <span class="k">def</span> <span class="nf">query_most_relavant_entities</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sub_docs</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_docs</span><span class="p">:</span>
             <span class="k">return</span> <span class="s1">&#39;&#39;</span>
@@ -260,7 +260,7 @@ <h1>Source code for data_juicer.ops.aggregator.most_relavant_entities_aggregator
 
 
 <div class="viewcode-block" id="MostRelavantEntitiesAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="c1"># if not batched sample</span>
diff --git a/_modules/data_juicer/ops/aggregator/nested_aggregator.html b/_modules/data_juicer/ops/aggregator/nested_aggregator.html
index 0924f168f..d44c1a2ff 100644
--- a/_modules/data_juicer/ops/aggregator/nested_aggregator.html
+++ b/_modules/data_juicer/ops/aggregator/nested_aggregator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="NestedAggregator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">NestedAggregator</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
     <span class="n">DEFAULT_SUB_DOC_TEMPLATE</span> <span class="o">=</span> <span class="s1">&#39;文档碎片：</span><span class="se">\n</span><span class="si">{text}</span><span class="se">\n</span><span class="s1">&#39;</span>
 
 <div class="viewcode-block" id="NestedAggregator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">input_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -194,7 +194,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 
 <div class="viewcode-block" id="NestedAggregator.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">response</span><span class="p">):</span>
 
         <span class="k">def</span> <span class="nf">if_match</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
@@ -214,7 +214,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 
 <div class="viewcode-block" id="NestedAggregator.recursive_summary">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary">[docs]</a>
     <span class="k">def</span> <span class="nf">recursive_summary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sub_docs</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="n">sub_docs</span><span class="p">:</span>
             <span class="k">return</span> <span class="s1">&#39;&#39;</span>
@@ -258,7 +258,7 @@ <h1>Source code for data_juicer.ops.aggregator.nested_aggregator</h1><div class=
 
 
 <div class="viewcode-block" id="NestedAggregator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="c1"># if not batched sample</span>
diff --git a/_modules/data_juicer/ops/base_op.html b/_modules/data_juicer/ops/base_op.html
index 1163f71c1..38763a538 100644
--- a/_modules/data_juicer/ops/base_op.html
+++ b/_modules/data_juicer/ops/base_op.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,15 +97,20 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 <span class="n">TAGGING_OPS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;Tagging Operators&#39;</span><span class="p">)</span>
 
 
+<div class="viewcode-block" id="convert_list_dict_to_dict_list">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.convert_list_dict_to_dict_list">[docs]</a>
 <span class="k">def</span> <span class="nf">convert_list_dict_to_dict_list</span><span class="p">(</span><span class="n">samples</span><span class="p">):</span>
     <span class="c1"># reconstruct samples from &quot;list of dicts&quot; to &quot;dict of lists&quot;</span>
     <span class="n">keys</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
     <span class="n">res_samples</span> <span class="o">=</span> <span class="p">{}</span>
     <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
         <span class="n">res_samples</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">s</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">]</span>
-    <span class="k">return</span> <span class="n">res_samples</span>
+    <span class="k">return</span> <span class="n">res_samples</span></div>
 
 
+
+<div class="viewcode-block" id="convert_dict_list_to_list_dict">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.convert_dict_list_to_list_dict">[docs]</a>
 <span class="k">def</span> <span class="nf">convert_dict_list_to_list_dict</span><span class="p">(</span><span class="n">samples</span><span class="p">):</span>
     <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
     <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
@@ -113,9 +118,12 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
     <span class="c1"># take any key, since they should be of same length</span>
     <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">keys</span><span class="p">[</span><span class="mi">0</span><span class="p">]])):</span>
         <span class="n">reconstructed_samples</span><span class="o">.</span><span class="n">append</span><span class="p">({</span><span class="n">key</span><span class="p">:</span> <span class="n">samples</span><span class="p">[</span><span class="n">key</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">})</span>
-    <span class="k">return</span> <span class="n">reconstructed_samples</span>
+    <span class="k">return</span> <span class="n">reconstructed_samples</span></div>
+
 
 
+<div class="viewcode-block" id="convert_arrow_to_python">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.convert_arrow_to_python">[docs]</a>
 <span class="k">def</span> <span class="nf">convert_arrow_to_python</span><span class="p">(</span><span class="n">method</span><span class="p">):</span>
 
     <span class="nd">@wraps</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
@@ -124,9 +132,12 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
             <span class="n">sample</span> <span class="o">=</span> <span class="n">sample</span><span class="o">.</span><span class="n">to_pydict</span><span class="p">()</span>
         <span class="k">return</span> <span class="n">method</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">wrapper</span>
+    <span class="k">return</span> <span class="n">wrapper</span></div>
 
 
+
+<div class="viewcode-block" id="catch_map_batches_exception">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.catch_map_batches_exception">[docs]</a>
 <span class="k">def</span> <span class="nf">catch_map_batches_exception</span><span class="p">(</span><span class="n">method</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    For batched-map sample-level fault tolerance.</span>
@@ -148,9 +159,12 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
             <span class="n">ret</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">source_file</span><span class="p">]</span> <span class="o">=</span> <span class="p">[]</span>
             <span class="k">return</span> <span class="n">ret</span>
 
-    <span class="k">return</span> <span class="n">wrapper</span>
+    <span class="k">return</span> <span class="n">wrapper</span></div>
+
 
 
+<div class="viewcode-block" id="catch_map_single_exception">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.catch_map_single_exception">[docs]</a>
 <span class="k">def</span> <span class="nf">catch_map_single_exception</span><span class="p">(</span><span class="n">method</span><span class="p">,</span> <span class="n">return_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    For single-map sample-level fault tolerance.</span>
@@ -192,14 +206,19 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
             <span class="c1"># without fault tolerance</span>
             <span class="k">return</span> <span class="n">method</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">wrapper</span>
+    <span class="k">return</span> <span class="n">wrapper</span></div>
 
 
+
+<div class="viewcode-block" id="OP">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP">[docs]</a>
 <span class="k">class</span> <span class="nc">OP</span><span class="p">:</span>
 
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cpu&#39;</span>
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">False</span>
 
+<div class="viewcode-block" id="OP.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class of operators.</span>
@@ -255,25 +274,40 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
             <span class="k">if</span> <span class="n">method</span> <span class="ow">and</span> <span class="nb">callable</span><span class="p">(</span><span class="n">method</span><span class="p">):</span>
                 <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span> <span class="n">method</span><span class="p">)</span>
                 <span class="n">method</span> <span class="o">=</span> <span class="n">wrap_func_with_nested_access</span><span class="p">(</span><span class="n">method</span><span class="p">)</span>
-                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">method</span><span class="p">)</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">method</span><span class="p">)</span></div>
+
 
+<div class="viewcode-block" id="OP.is_batched_op">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.is_batched_op">[docs]</a>
     <span class="k">def</span> <span class="nf">is_batched_op</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_batched_op</span></div>
 
+
+<div class="viewcode-block" id="OP.process">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
-        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
 
+
+<div class="viewcode-block" id="OP.use_cuda">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.use_cuda">[docs]</a>
     <span class="k">def</span> <span class="nf">use_cuda</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">==</span> <span class="s1">&#39;cuda&#39;</span> <span class="ow">and</span> <span class="n">is_cuda_available</span><span class="p">()</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">==</span> <span class="s1">&#39;cuda&#39;</span> <span class="ow">and</span> <span class="n">is_cuda_available</span><span class="p">()</span></div>
+
 
+<div class="viewcode-block" id="OP.runtime_np">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.runtime_np">[docs]</a>
     <span class="k">def</span> <span class="nf">runtime_np</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
         <span class="n">op_proc</span> <span class="o">=</span> <span class="n">calculate_np</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">mem_required</span><span class="p">,</span>
                                <span class="bp">self</span><span class="o">.</span><span class="n">cpu_required</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">,</span>
                                <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
         <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
             <span class="sa">f</span><span class="s1">&#39;Op [</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="s1">] running with number of procs:</span><span class="si">{</span><span class="n">op_proc</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">op_proc</span>
+        <span class="k">return</span> <span class="n">op_proc</span></div>
 
+
+<div class="viewcode-block" id="OP.remove_extra_parameters">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.remove_extra_parameters">[docs]</a>
     <span class="k">def</span> <span class="nf">remove_extra_parameters</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">param_dict</span><span class="p">,</span> <span class="n">keys</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">            at the begining of the init of the mapper op, call</span>
@@ -289,8 +323,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
             <span class="n">param_dict</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;self&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
         <span class="k">else</span><span class="p">:</span>
             <span class="n">param_dict</span> <span class="o">=</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">param_dict</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span> <span class="n">k</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">}</span>
-        <span class="k">return</span> <span class="n">param_dict</span>
+        <span class="k">return</span> <span class="n">param_dict</span></div>
+
 
+<div class="viewcode-block" id="OP.add_parameters">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.add_parameters">[docs]</a>
     <span class="k">def</span> <span class="nf">add_parameters</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">init_parameter_dict</span><span class="p">,</span> <span class="o">**</span><span class="n">extra_param_dict</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">            add parameters for each sample, need to keep extra_param_dict</span>
@@ -298,8 +335,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 <span class="sd">        &quot;&quot;&quot;</span>
         <span class="n">related_parameters</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">init_parameter_dict</span><span class="p">)</span>
         <span class="n">related_parameters</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">extra_param_dict</span><span class="p">)</span>
-        <span class="k">return</span> <span class="n">related_parameters</span>
+        <span class="k">return</span> <span class="n">related_parameters</span></div>
 
+
+<div class="viewcode-block" id="OP.run">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">NestedDataset</span><span class="p">):</span>
@@ -324,18 +364,23 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
             <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">add_index</span><span class="p">,</span> <span class="n">with_indices</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
 
-        <span class="k">return</span> <span class="n">dataset</span>
+        <span class="k">return</span> <span class="n">dataset</span></div>
+
 
+<div class="viewcode-block" id="OP.empty_history">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.OP.empty_history">[docs]</a>
     <span class="k">def</span> <span class="nf">empty_history</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">empty</span><span class="p">((</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">str</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">np</span><span class="o">.</span><span class="n">empty</span><span class="p">((</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">str</span><span class="p">)</span></div>
+</div>
+
 
 
 <div class="viewcode-block" id="Mapper">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Mapper">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper">[docs]</a>
 <span class="k">class</span> <span class="nc">Mapper</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
 
 <div class="viewcode-block" id="Mapper.__init__">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Mapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that conducts data editing.</span>
@@ -376,7 +421,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
 
 <div class="viewcode-block" id="Mapper.process_batched">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Mapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
         <span class="n">keys</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
         <span class="n">first_key</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">keys</span><span class="p">))</span>
@@ -402,7 +447,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Mapper.process_single">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Mapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For sample level, sample --&gt; sample</span>
@@ -414,7 +459,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Mapper.run">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Mapper.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Mapper.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Mapper</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
         <span class="n">new_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
@@ -433,11 +478,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Filter">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter">[docs]</a>
 <span class="k">class</span> <span class="nc">Filter</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
 
 <div class="viewcode-block" id="Filter.__init__">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that removes specific info.</span>
@@ -484,7 +529,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
         <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_stats</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
 
 <div class="viewcode-block" id="Filter.compute_stats_batched">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
         <span class="n">keys</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
         <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
@@ -500,14 +545,14 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Filter.process_batched">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">return</span> <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_single</span><span class="p">({</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">:</span> <span class="n">stat</span><span class="p">}),</span>
                    <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span></div>
 
 
 <div class="viewcode-block" id="Filter.compute_stats_single">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute stats for the sample which is used as a metric to decide</span>
@@ -522,7 +567,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Filter.process_single">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For sample level, sample --&gt; Boolean.</span>
@@ -534,7 +579,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Filter.run">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Filter.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Filter.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">reduce</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Filter</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
         <span class="c1"># add stats field for Filters that produce stats</span>
@@ -571,11 +616,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Deduplicator">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Deduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">[docs]</a>
 <span class="k">class</span> <span class="nc">Deduplicator</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
 
 <div class="viewcode-block" id="Deduplicator.__init__">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Deduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that conducts deduplication.</span>
@@ -603,7 +648,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Deduplicator.compute_hash">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Deduplicator.compute_hash">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute hash values for the sample.</span>
@@ -615,7 +660,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Deduplicator.process">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Deduplicator.process">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For doc-level, dataset --&gt; dataset.</span>
@@ -629,7 +674,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Deduplicator.run">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Deduplicator.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">reduce</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_hash</span><span class="p">,</span>
@@ -649,11 +694,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Selector">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Selector">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector">[docs]</a>
 <span class="k">class</span> <span class="nc">Selector</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
 
 <div class="viewcode-block" id="Selector.__init__">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Selector.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that conducts selection in dataset-level.</span>
@@ -675,7 +720,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Selector.process">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Selector.process">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Dataset --&gt; dataset.</span>
@@ -687,7 +732,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Selector.run">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Selector.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Selector.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Selector</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
         <span class="n">new_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
@@ -699,11 +744,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Grouper">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Grouper">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper">[docs]</a>
 <span class="k">class</span> <span class="nc">Grouper</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
 
 <div class="viewcode-block" id="Grouper.__init__">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Grouper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that group samples.</span>
@@ -725,7 +770,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Grouper.process">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Grouper.process">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Dataset --&gt; dataset.</span>
@@ -737,7 +782,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Grouper.run">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Grouper.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Grouper.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Grouper</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
         <span class="n">batched_samples</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
@@ -751,11 +796,11 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Aggregator">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Aggregator">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator">[docs]</a>
 <span class="k">class</span> <span class="nc">Aggregator</span><span class="p">(</span><span class="n">OP</span><span class="p">):</span>
 
 <div class="viewcode-block" id="Aggregator.__init__">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Aggregator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Base class that group samples.</span>
@@ -778,7 +823,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Aggregator.process_single">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Aggregator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For sample level, batched sample --&gt; sample,</span>
@@ -791,7 +836,7 @@ <h1>Source code for data_juicer.ops.base_op</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="Aggregator.run">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.Aggregator.run">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.run">[docs]</a>
     <span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">exporter</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracer</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">dataset</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span><span class="n">Aggregator</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
         <span class="n">new_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/common/helper_func.html b/_modules/data_juicer/ops/common/helper_func.html
index 7a6308896..15238138e 100644
--- a/_modules/data_juicer/ops/common/helper_func.html
+++ b/_modules/data_juicer/ops/common/helper_func.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,27 +85,39 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 <span class="kn">import</span> <span class="nn">regex</span> <span class="k">as</span> <span class="nn">re</span>
 
 
+<div class="viewcode-block" id="UnionFind">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">[docs]</a>
 <span class="k">class</span> <span class="nc">UnionFind</span><span class="p">:</span>
 
+<div class="viewcode-block" id="UnionFind.__init__">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Initialization method.&quot;&quot;&quot;</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span></div>
 
+
+<div class="viewcode-block" id="UnionFind.find">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">[docs]</a>
     <span class="k">def</span> <span class="nf">find</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
         <span class="k">if</span> <span class="n">x</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="n">x</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">!=</span> <span class="n">x</span><span class="p">:</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">])</span>
-        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">x</span><span class="p">]</span></div>
+
 
+<div class="viewcode-block" id="UnionFind.union">
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union">[docs]</a>
     <span class="k">def</span> <span class="nf">union</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
         <span class="n">px</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
         <span class="n">py</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">y</span><span class="p">)</span>
-        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">px</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">py</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">py</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">px</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">parent</span><span class="p">[</span><span class="n">py</span><span class="p">]</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">px</span><span class="p">,</span> <span class="n">py</span><span class="p">)</span></div>
+</div>
+
 
 
 <div class="viewcode-block" id="strip">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.strip">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip">[docs]</a>
 <span class="k">def</span> <span class="nf">strip</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">strip_characters</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Way faster than document.strip(strip_characters) since strip_characters is</span>
@@ -136,7 +148,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="split_on_whitespace">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace">[docs]</a>
 <span class="k">def</span> <span class="nf">split_on_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">new_line</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">tab</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This method also removes concatenated spaces.</span>
@@ -155,7 +167,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="split_on_newline_tab_whitespace">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">[docs]</a>
 <span class="k">def</span> <span class="nf">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">document</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This method is used to split the document into different levels of sub-</span>
@@ -175,7 +187,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="merge_on_whitespace_tab_newline">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">[docs]</a>
 <span class="k">def</span> <span class="nf">merge_on_whitespace_tab_newline</span><span class="p">(</span><span class="n">sentences</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    This method is used to merge different levels of sub-sentences into one</span>
@@ -197,7 +209,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="words_augmentation">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation">[docs]</a>
 <span class="k">def</span> <span class="nf">words_augmentation</span><span class="p">(</span><span class="n">words</span><span class="p">,</span> <span class="n">group_size</span><span class="p">,</span> <span class="n">join_char</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Augment words, especially for Chinese (without a space between words) and</span>
@@ -217,7 +229,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="get_words_from_document">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document">[docs]</a>
 <span class="k">def</span> <span class="nf">get_words_from_document</span><span class="p">(</span>
     <span class="n">document</span><span class="p">,</span>
     <span class="n">token_func</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -244,7 +256,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="words_refinement">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.words_refinement">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement">[docs]</a>
 <span class="k">def</span> <span class="nf">words_refinement</span><span class="p">(</span><span class="n">words</span><span class="p">,</span>
                      <span class="n">lower_case</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
                      <span class="n">strip_chars</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
@@ -284,7 +296,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="get_sentences_from_document">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document">[docs]</a>
 <span class="k">def</span> <span class="nf">get_sentences_from_document</span><span class="p">(</span><span class="n">document</span><span class="p">,</span> <span class="n">model_func</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Get sentences from a document.</span>
@@ -304,7 +316,7 @@ <h1>Source code for data_juicer.ops.common.helper_func</h1><div class="highlight
 
 
 <div class="viewcode-block" id="split_text_by_punctuation">
-<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_text_by_punctuation">[docs]</a>
 <span class="k">def</span> <span class="nf">split_text_by_punctuation</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Split text by any zh and en punctuation</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
index cdf1c0a5e..ba39b7a8f 100644
--- a/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/document_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="DocumentDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;document_deduplicator&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">DocumentDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="DocumentDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">ignore_non_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -127,7 +127,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="DocumentDeduplicator.compute_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute md5 hash values for the sample.</span>
@@ -153,7 +153,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="DocumentDeduplicator.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For doc-level, dataset --&gt; dataset.</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
index 86b67ca3d..c0d3fa05d 100644
--- a/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -108,6 +108,8 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
 <span class="n">MAX_HASH</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">uint64</span><span class="p">((</span><span class="mi">1</span> <span class="o">&lt;&lt;</span> <span class="mi">32</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
 
 
+<div class="viewcode-block" id="sha1_hash32">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">[docs]</a>
 <span class="k">def</span> <span class="nf">sha1_hash32</span><span class="p">(</span><span class="n">data</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Directly taken from datasketch package to avoid dependency.</span>
@@ -120,9 +122,12 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
 <span class="sd">    -------</span>
 <span class="sd">    int</span>
 <span class="sd">    &quot;&quot;&quot;</span>
-    <span class="k">return</span> <span class="n">struct</span><span class="o">.</span><span class="n">unpack</span><span class="p">(</span><span class="s1">&#39;&lt;I&#39;</span><span class="p">,</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">sha1</span><span class="p">(</span><span class="n">data</span><span class="p">)</span><span class="o">.</span><span class="n">digest</span><span class="p">()[:</span><span class="mi">4</span><span class="p">])[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">struct</span><span class="o">.</span><span class="n">unpack</span><span class="p">(</span><span class="s1">&#39;&lt;I&#39;</span><span class="p">,</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">sha1</span><span class="p">(</span><span class="n">data</span><span class="p">)</span><span class="o">.</span><span class="n">digest</span><span class="p">()[:</span><span class="mi">4</span><span class="p">])[</span><span class="mi">0</span><span class="p">]</span></div>
 
 
+
+<div class="viewcode-block" id="optimal_param">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">[docs]</a>
 <span class="k">def</span> <span class="nf">optimal_param</span><span class="p">(</span>
     <span class="n">threshold</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
     <span class="n">num_perm</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
@@ -172,11 +177,12 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
             <span class="k">if</span> <span class="n">error</span> <span class="o">&lt;</span> <span class="n">min_error</span><span class="p">:</span>
                 <span class="n">min_error</span> <span class="o">=</span> <span class="n">error</span>
                 <span class="n">opt</span> <span class="o">=</span> <span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="n">r</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">opt</span>
+    <span class="k">return</span> <span class="n">opt</span></div>
+
 
 
 <div class="viewcode-block" id="DocumentMinhashDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">DocumentMinhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -187,7 +193,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="DocumentMinhashDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
@@ -289,7 +295,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
 
 
 <div class="viewcode-block" id="DocumentMinhashDeduplicator.compute_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute minhash values for the sample.</span>
@@ -356,7 +362,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_minhash_deduplicator</
 
 
 <div class="viewcode-block" id="DocumentMinhashDeduplicator.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For doc-level, dataset --&gt; dataset.</span>
diff --git a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
index 2c284b83e..58469db62 100644
--- a/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -101,13 +101,13 @@ <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</
 
 
 <div class="viewcode-block" id="DocumentSimhashDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">DocumentSimhashDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Deduplicator to deduplicate samples at document-level using SimHash.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="DocumentSimhashDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;space&#39;</span><span class="p">,</span>
                  <span class="n">window_size</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
@@ -159,7 +159,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</
 
 
 <div class="viewcode-block" id="DocumentSimhashDeduplicator.compute_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Compute simhash values for the sample.</span>
@@ -208,7 +208,7 @@ <h1>Source code for data_juicer.ops.deduplicator.document_simhash_deduplicator</
 
 
 <div class="viewcode-block" id="DocumentSimhashDeduplicator.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For doc-level, dataset --&gt; dataset.</span>
diff --git a/_modules/data_juicer/ops/deduplicator/image_deduplicator.html b/_modules/data_juicer/ops/deduplicator/image_deduplicator.html
index 6c5417be2..056ebc7c9 100644
--- a/_modules/data_juicer/ops/deduplicator/image_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/image_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,6 +97,8 @@ <h1>Source code for data_juicer.ops.deduplicator.image_deduplicator</h1><div cla
 <span class="n">HASH_METHOD</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;phash&#39;</span><span class="p">,</span> <span class="s1">&#39;dhash&#39;</span><span class="p">,</span> <span class="s1">&#39;whash&#39;</span><span class="p">,</span> <span class="s1">&#39;ahash&#39;</span><span class="p">}</span>
 
 
+<div class="viewcode-block" id="get_hash_method">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method">[docs]</a>
 <span class="k">def</span> <span class="nf">get_hash_method</span><span class="p">(</span><span class="n">method_name</span><span class="p">):</span>
 
     <span class="n">mapping</span> <span class="o">=</span> <span class="p">{</span>
@@ -106,11 +108,12 @@ <h1>Source code for data_juicer.ops.deduplicator.image_deduplicator</h1><div cla
         <span class="s1">&#39;ahash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">AHash</span>
     <span class="p">}</span>
 
-    <span class="k">return</span> <span class="n">mapping</span><span class="p">[</span><span class="n">method_name</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">mapping</span><span class="p">[</span><span class="n">method_name</span><span class="p">]</span></div>
+
 
 
 <div class="viewcode-block" id="ImageDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
@@ -120,7 +123,7 @@ <h1>Source code for data_juicer.ops.deduplicator.image_deduplicator</h1><div cla
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="ImageDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;phash&#39;</span><span class="p">,</span>
                  <span class="n">consider_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -147,7 +150,7 @@ <h1>Source code for data_juicer.ops.deduplicator.image_deduplicator</h1><div cla
 
 
 <div class="viewcode-block" id="ImageDeduplicator.compute_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># get hash of text first</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
@@ -174,7 +177,7 @@ <h1>Source code for data_juicer.ops.deduplicator.image_deduplicator</h1><div cla
 
 
 <div class="viewcode-block" id="ImageDeduplicator.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For doc-level, dataset --&gt; dataset.</span>
diff --git a/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html
index 1dff4b5b0..50816a387 100644
--- a/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_basic_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="RayBasicDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator">[docs]</a>
 <span class="k">class</span> <span class="nc">RayBasicDeduplicator</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    A basic exact matching deduplicator for RAY.</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_basic_deduplicator</h1><div
     <span class="n">EMPTY_HASH_VALUE</span> <span class="o">=</span> <span class="s1">&#39;EMPTY&#39;</span>
 
 <div class="viewcode-block" id="RayBasicDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">redis_host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;localhost&#39;</span><span class="p">,</span>
                  <span class="n">redis_port</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6380</span><span class="p">,</span>
@@ -123,14 +123,14 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_basic_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="RayBasicDeduplicator.calculate_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Calculate hash value for the sample.&quot;&quot;&quot;</span>
         <span class="k">raise</span> <span class="ne">NotImplementedError</span></div>
 
 
 <div class="viewcode-block" id="RayBasicDeduplicator.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># init redis client</span>
         <span class="n">r</span> <span class="o">=</span> <span class="n">redis</span><span class="o">.</span><span class="n">StrictRedis</span><span class="p">(</span><span class="n">host</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">redis_host</span><span class="p">,</span> <span class="n">port</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">redis_port</span><span class="p">,</span> <span class="n">db</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
@@ -142,7 +142,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_basic_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="RayBasicDeduplicator.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">HashKeys</span><span class="o">.</span><span class="n">is_duplicate</span><span class="p">]</span></div>
 </div>
diff --git a/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html
index cb71bd292..2f88f9027 100644
--- a/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_document_deduplicator</h1><
 
 
 <div class="viewcode-block" id="RayDocumentDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RayDocumentDeduplicator</span><span class="p">(</span><span class="n">RayBasicDeduplicator</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_document_deduplicator</h1><
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RayDocumentDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">redis_host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;localhost&#39;</span><span class="p">,</span>
                  <span class="n">redis_port</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6380</span><span class="p">,</span>
@@ -127,7 +127,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_document_deduplicator</h1><
 
 
 <div class="viewcode-block" id="RayDocumentDeduplicator.calculate_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">text_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]:</span>
             <span class="k">return</span> <span class="n">RayBasicDeduplicator</span><span class="o">.</span><span class="n">EMPTY_HASH_VALUE</span>
diff --git a/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html
index 62ebdc7fe..2b0d48164 100644
--- a/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,6 +94,8 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_image_deduplicator</h1><div
 <span class="n">HASH_METHOD</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;phash&#39;</span><span class="p">,</span> <span class="s1">&#39;dhash&#39;</span><span class="p">,</span> <span class="s1">&#39;whash&#39;</span><span class="p">,</span> <span class="s1">&#39;ahash&#39;</span><span class="p">}</span>
 
 
+<div class="viewcode-block" id="get_hash_method">
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method">[docs]</a>
 <span class="k">def</span> <span class="nf">get_hash_method</span><span class="p">(</span><span class="n">method_name</span><span class="p">):</span>
 
     <span class="n">mapping</span> <span class="o">=</span> <span class="p">{</span>
@@ -103,11 +105,12 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_image_deduplicator</h1><div
         <span class="s1">&#39;ahash&#39;</span><span class="p">:</span> <span class="n">imgdedup_methods</span><span class="o">.</span><span class="n">AHash</span>
     <span class="p">}</span>
 
-    <span class="k">return</span> <span class="n">mapping</span><span class="p">[</span><span class="n">method_name</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">mapping</span><span class="p">[</span><span class="n">method_name</span><span class="p">]</span></div>
+
 
 
 <div class="viewcode-block" id="RayImageDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RayImageDeduplicator</span><span class="p">(</span><span class="n">RayBasicDeduplicator</span><span class="p">):</span>
@@ -117,7 +120,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_image_deduplicator</h1><div
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RayImageDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">redis_host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;localhost&#39;</span><span class="p">,</span>
                  <span class="n">redis_port</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6380</span><span class="p">,</span>
@@ -142,7 +145,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_image_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="RayImageDeduplicator.calculate_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
             <span class="k">return</span> <span class="n">RayBasicDeduplicator</span><span class="o">.</span><span class="n">EMPTY_HASH_VALUE</span>
diff --git a/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html b/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html
index 48b0a7d96..7afabca4c 100644
--- a/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_video_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="RayVideoDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RayVideoDeduplicator</span><span class="p">(</span><span class="n">RayBasicDeduplicator</span><span class="p">):</span>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_video_deduplicator</h1><div
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RayVideoDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">redis_host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;localhost&#39;</span><span class="p">,</span>
                  <span class="n">redis_port</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">6380</span><span class="p">,</span>
@@ -122,7 +122,7 @@ <h1>Source code for data_juicer.ops.deduplicator.ray_video_deduplicator</h1><div
 
 
 <div class="viewcode-block" id="RayVideoDeduplicator.calculate_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">calculate_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
             <span class="k">return</span> <span class="n">RayBasicDeduplicator</span><span class="o">.</span><span class="n">EMPTY_HASH_VALUE</span>
diff --git a/_modules/data_juicer/ops/deduplicator/video_deduplicator.html b/_modules/data_juicer/ops/deduplicator/video_deduplicator.html
index 63e77d4d5..ada0df1b1 100644
--- a/_modules/data_juicer/ops/deduplicator/video_deduplicator.html
+++ b/_modules/data_juicer/ops/deduplicator/video_deduplicator.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.deduplicator.video_deduplicator</h1><div cla
 
 
 <div class="viewcode-block" id="VideoDeduplicator">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoDeduplicator</span><span class="p">(</span><span class="n">Deduplicator</span><span class="p">):</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.deduplicator.video_deduplicator</h1><div cla
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoDeduplicator.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">consider_text</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization.</span>
@@ -121,7 +121,7 @@ <h1>Source code for data_juicer.ops.deduplicator.video_deduplicator</h1><div cla
 
 
 <div class="viewcode-block" id="VideoDeduplicator.compute_hash">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_hash</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># get hash of text first</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">consider_text</span><span class="p">:</span>
@@ -156,7 +156,7 @@ <h1>Source code for data_juicer.ops.deduplicator.video_deduplicator</h1><div cla
 
 
 <div class="viewcode-block" id="VideoDeduplicator.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">,</span> <span class="n">show_num</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        For doc-level, dataset --&gt; dataset.</span>
diff --git a/_modules/data_juicer/ops/filter/alphanumeric_filter.html b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
index b193e82ac..6e94318b3 100644
--- a/_modules/data_juicer/ops/filter/alphanumeric_filter.html
+++ b/_modules/data_juicer/ops/filter/alphanumeric_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,7 +89,7 @@ <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="h
 
 
 <div class="viewcode-block" id="AlphanumericFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;alphanumeric_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">AlphanumericFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with alphabet/numeric ratio within a specific</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="h
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="AlphanumericFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
@@ -135,7 +135,7 @@ <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="h
 
 
 <div class="viewcode-block" id="AlphanumericFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -166,7 +166,7 @@ <h1>Source code for data_juicer.ops.filter.alphanumeric_filter</h1><div class="h
 
 
 <div class="viewcode-block" id="AlphanumericFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">ratio_key</span> <span class="o">=</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alpha_token_ratio</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span> \
             <span class="k">else</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">alnum_ratio</span>
diff --git a/_modules/data_juicer/ops/filter/audio_duration_filter.html b/_modules/data_juicer/ops/filter/audio_duration_filter.html
index ef87e41dc..36334f557 100644
--- a/_modules/data_juicer/ops/filter/audio_duration_filter.html
+++ b/_modules/data_juicer/ops/filter/audio_duration_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.filter.audio_duration_filter</h1><div class=
 
 
 <div class="viewcode-block" id="AudioDurationFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_AUDIOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">AudioDurationFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.filter.audio_duration_filter</h1><div class=
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="AudioDurationFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_duration</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
                  <span class="n">max_duration</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.filter.audio_duration_filter</h1><div class=
 
 
 <div class="viewcode-block" id="AudioDurationFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_duration</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -162,7 +162,7 @@ <h1>Source code for data_juicer.ops.filter.audio_duration_filter</h1><div class=
 
 
 <div class="viewcode-block" id="AudioDurationFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">audio_durations</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_duration</span><span class="p">]</span>
         <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
diff --git a/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html b/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html
index 8eb107e62..7bb897f65 100644
--- a/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html
+++ b/_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,6 +94,8 @@ <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="
 
 
 <span class="c1"># run NMF to decompose the signal and noise from the input audio</span>
+<div class="viewcode-block" id="separate_signal_noise">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise">[docs]</a>
 <span class="k">def</span> <span class="nf">separate_signal_noise</span><span class="p">(</span><span class="n">audio</span><span class="p">,</span> <span class="n">n_components</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">nmf_iter</span><span class="o">=</span><span class="mi">500</span><span class="p">):</span>
     <span class="c1"># convert spectral domain using Short-time Fourier transform</span>
     <span class="n">S</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">librosa</span><span class="o">.</span><span class="n">stft</span><span class="p">(</span><span class="n">audio</span><span class="p">))</span>
@@ -113,10 +115,13 @@ <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="
     <span class="n">signal_audio</span> <span class="o">=</span> <span class="n">librosa</span><span class="o">.</span><span class="n">istft</span><span class="p">(</span><span class="n">signal</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="mi">1</span><span class="n">j</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">angle</span><span class="p">(</span><span class="n">S</span><span class="p">)))</span>
     <span class="n">noise_audio</span> <span class="o">=</span> <span class="n">librosa</span><span class="o">.</span><span class="n">istft</span><span class="p">(</span><span class="n">noise</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="mi">1</span><span class="n">j</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">angle</span><span class="p">(</span><span class="n">S</span><span class="p">)))</span>
 
-    <span class="k">return</span> <span class="n">signal_audio</span><span class="p">,</span> <span class="n">noise_audio</span>
+    <span class="k">return</span> <span class="n">signal_audio</span><span class="p">,</span> <span class="n">noise_audio</span></div>
+
 
 
 <span class="c1"># compute the SNR of an audio with NMF algorithm</span>
+<div class="viewcode-block" id="compute_nmf_snr">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr">[docs]</a>
 <span class="k">def</span> <span class="nf">compute_nmf_snr</span><span class="p">(</span><span class="n">audio_data</span><span class="p">,</span> <span class="n">nmf_iter</span><span class="o">=</span><span class="mi">500</span><span class="p">):</span>
     <span class="c1"># separate the signal and noise parts from the original audio</span>
     <span class="n">signal</span><span class="p">,</span> <span class="n">noise</span> <span class="o">=</span> <span class="n">separate_signal_noise</span><span class="p">(</span><span class="n">audio_data</span><span class="p">,</span>
@@ -133,11 +138,12 @@ <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="
     <span class="k">else</span><span class="p">:</span>
         <span class="n">snr</span> <span class="o">=</span> <span class="mi">10</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">log10</span><span class="p">(</span><span class="n">power_signal</span> <span class="o">/</span> <span class="n">power_noise</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">snr</span>
+    <span class="k">return</span> <span class="n">snr</span></div>
+
 
 
 <div class="viewcode-block" id="AudioNMFSNRFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_AUDIOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">AudioNMFSNRFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -146,7 +152,7 @@ <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="AudioNMFSNRFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_snr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
                  <span class="n">max_snr</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -181,7 +187,7 @@ <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="
 
 
 <div class="viewcode-block" id="AudioNMFSNRFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_nmf_snr</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -212,7 +218,7 @@ <h1>Source code for data_juicer.ops.filter.audio_nmf_snr_filter</h1><div class="
 
 
 <div class="viewcode-block" id="AudioNMFSNRFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">audio_snrs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_nmf_snr</span><span class="p">]</span>
         <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/audio_size_filter.html b/_modules/data_juicer/ops/filter/audio_size_filter.html
index 7e832bfed..5012fce5b 100644
--- a/_modules/data_juicer/ops/filter/audio_size_filter.html
+++ b/_modules/data_juicer/ops/filter/audio_size_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.filter.audio_size_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="AudioSizeFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;audio_size_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">AudioSizeFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose audio size (in bytes/kb/MB/...) within a</span>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.filter.audio_size_filter</h1><div class="hig
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="AudioSizeFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;0&#39;</span><span class="p">,</span>
                  <span class="n">max_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;1TB&#39;</span><span class="p">,</span>
@@ -125,7 +125,7 @@ <h1>Source code for data_juicer.ops.filter.audio_size_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="AudioSizeFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_sizes</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -146,7 +146,7 @@ <h1>Source code for data_juicer.ops.filter.audio_size_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="AudioSizeFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">audio_sizes</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">audio_sizes</span><span class="p">]</span>
         <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
diff --git a/_modules/data_juicer/ops/filter/average_line_length_filter.html b/_modules/data_juicer/ops/filter/average_line_length_filter.html
index 48ade2450..c009f4545 100644
--- a/_modules/data_juicer/ops/filter/average_line_length_filter.html
+++ b/_modules/data_juicer/ops/filter/average_line_length_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div c
 
 
 <div class="viewcode-block" id="AverageLineLengthFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_LINES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">AverageLineLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div c
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="AverageLineLengthFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -122,7 +122,7 @@ <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div c
 
 
 <div class="viewcode-block" id="AverageLineLengthFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -146,7 +146,7 @@ <h1>Source code for data_juicer.ops.filter.average_line_length_filter</h1><div c
 
 
 <div class="viewcode-block" id="AverageLineLengthFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/character_repetition_filter.html b/_modules/data_juicer/ops/filter/character_repetition_filter.html
index 37aaf22db..9657a7073 100644
--- a/_modules/data_juicer/ops/filter/character_repetition_filter.html
+++ b/_modules/data_juicer/ops/filter/character_repetition_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div
 
 
 <div class="viewcode-block" id="CharacterRepetitionFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;character_repetition_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CharacterRepetitionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with char-level n-gram repetition ratio within a</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="CharacterRepetitionFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">rep_len</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
@@ -126,7 +126,7 @@ <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div
 
 
 <div class="viewcode-block" id="CharacterRepetitionFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -166,7 +166,7 @@ <h1>Source code for data_juicer.ops.filter.character_repetition_filter</h1><div
 
 
 <div class="viewcode-block" id="CharacterRepetitionFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/flagged_words_filter.html b/_modules/data_juicer/ops/filter/flagged_words_filter.html
index f97dd9508..5eea60bdc 100644
--- a/_modules/data_juicer/ops/filter/flagged_words_filter.html
+++ b/_modules/data_juicer/ops/filter/flagged_words_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="
 
 
 <div class="viewcode-block" id="FlaggedWordFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">FlaggedWordFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -108,7 +108,7 @@ <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="FlaggedWordFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -159,7 +159,7 @@ <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="
 
 
 <div class="viewcode-block" id="FlaggedWordFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
@@ -211,7 +211,7 @@ <h1>Source code for data_juicer.ops.filter.flagged_words_filter</h1><div class="
 
 
 <div class="viewcode-block" id="FlaggedWordFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">return</span> <span class="nb">list</span><span class="p">(</span>
             <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/image_aesthetics_filter.html b/_modules/data_juicer/ops/filter/image_aesthetics_filter.html
index 1012cff7e..ba915aaf6 100644
--- a/_modules/data_juicer/ops/filter/image_aesthetics_filter.html
+++ b/_modules/data_juicer/ops/filter/image_aesthetics_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.filter.image_aesthetics_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageAestheticsFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageAestheticsFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.filter.image_aesthetics_filter</h1><div clas
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="ImageAestheticsFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_scorer_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -152,7 +152,7 @@ <h1>Source code for data_juicer.ops.filter.image_aesthetics_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageAestheticsFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_aesthetics_scores</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -192,7 +192,7 @@ <h1>Source code for data_juicer.ops.filter.image_aesthetics_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageAestheticsFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="p">(</span>
             <span class="n">sample</span><span class="p">)[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_aesthetics_scores</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html b/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html
index c5fe7191c..abffd0fa3 100644
--- a/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html
+++ b/_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.filter.image_aspect_ratio_filter</h1><div cl
 
 
 <div class="viewcode-block" id="ImageAspectRatioFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_aspect_ratio_filter&#39;</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_aspect_ratio_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageAspectRatioFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.image_aspect_ratio_filter</h1><div cl
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageAspectRatioFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.333</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">3.0</span><span class="p">,</span>
@@ -127,7 +127,7 @@ <h1>Source code for data_juicer.ops.filter.image_aspect_ratio_filter</h1><div cl
 
 
 <div class="viewcode-block" id="ImageAspectRatioFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">image_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -161,7 +161,7 @@ <h1>Source code for data_juicer.ops.filter.image_aspect_ratio_filter</h1><div cl
 
 
 <div class="viewcode-block" id="ImageAspectRatioFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
 
         <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="n">values</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/filter/image_face_count_filter.html b/_modules/data_juicer/ops/filter/image_face_count_filter.html
index 5a354352c..4375f2e8b 100644
--- a/_modules/data_juicer/ops/filter/image_face_count_filter.html
+++ b/_modules/data_juicer/ops/filter/image_face_count_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_count_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageFaceCountFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -113,7 +113,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_count_filter</h1><div clas
     <span class="p">}</span>
 
 <div class="viewcode-block" id="ImageFaceCountFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">min_face_count</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
@@ -159,7 +159,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_count_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageFaceCountFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -195,7 +195,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_count_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageFaceCountFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">face_counts</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_counts</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">face_counts</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/image_face_ratio_filter.html b/_modules/data_juicer/ops/filter/image_face_ratio_filter.html
index cd95286fc..6a112ce0c 100644
--- a/_modules/data_juicer/ops/filter/image_face_ratio_filter.html
+++ b/_modules/data_juicer/ops/filter/image_face_ratio_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_ratio_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageFaceRatioFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -113,7 +113,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_ratio_filter</h1><div clas
     <span class="p">}</span>
 
 <div class="viewcode-block" id="ImageFaceRatioFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
@@ -158,7 +158,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_ratio_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageFaceRatioFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -199,7 +199,7 @@ <h1>Source code for data_juicer.ops.filter.image_face_ratio_filter</h1><div clas
 
 
 <div class="viewcode-block" id="ImageFaceRatioFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">face_ratios</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">face_ratios</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">face_ratios</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/image_nsfw_filter.html b/_modules/data_juicer/ops/filter/image_nsfw_filter.html
index 206bf4706..5d3f9d273 100644
--- a/_modules/data_juicer/ops/filter/image_nsfw_filter.html
+++ b/_modules/data_juicer/ops/filter/image_nsfw_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.filter.image_nsfw_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageNSFWFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageNSFWFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.filter.image_nsfw_filter</h1><div class="hig
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="ImageNSFWFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_nsfw_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Falconsai/nsfw_image_detection&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -138,7 +138,7 @@ <h1>Source code for data_juicer.ops.filter.image_nsfw_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageNSFWFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_nsfw_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -171,7 +171,7 @@ <h1>Source code for data_juicer.ops.filter.image_nsfw_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageNSFWFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_nsfw_score</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html b/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html
index 500c4ce92..710d025fa 100644
--- a/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html
+++ b/_modules/data_juicer/ops/filter/image_pair_similarity_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.filter.image_pair_similarity_filter</h1><div
 
 
 <div class="viewcode-block" id="ImagePairSimilarityFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImagePairSimilarityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.filter.image_pair_similarity_filter</h1><div
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="ImagePairSimilarityFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_clip</span><span class="o">=</span><span class="s1">&#39;openai/clip-vit-base-patch32&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
@@ -139,7 +139,7 @@ <h1>Source code for data_juicer.ops.filter.image_pair_similarity_filter</h1><div
 
 
 <div class="viewcode-block" id="ImagePairSimilarityFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 
         <span class="c1"># check if it&#39;s computed already</span>
@@ -179,7 +179,7 @@ <h1>Source code for data_juicer.ops.filter.image_pair_similarity_filter</h1><div
 
 
 <div class="viewcode-block" id="ImagePairSimilarityFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">similarity</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_pair_similarity</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">similarity</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/image_shape_filter.html b/_modules/data_juicer/ops/filter/image_shape_filter.html
index 1b7ee3c58..7f30718f0 100644
--- a/_modules/data_juicer/ops/filter/image_shape_filter.html
+++ b/_modules/data_juicer/ops/filter/image_shape_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,7 +89,7 @@ <h1>Source code for data_juicer.ops.filter.image_shape_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="ImageShapeFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_shape_filter&#39;</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_shape_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageShapeFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.filter.image_shape_filter</h1><div class="hi
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageShapeFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">max_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -134,7 +134,7 @@ <h1>Source code for data_juicer.ops.filter.image_shape_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="ImageShapeFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_width</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> \
@@ -166,7 +166,7 @@ <h1>Source code for data_juicer.ops.filter.image_shape_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="ImageShapeFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">ws</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_width</span><span class="p">]</span>
         <span class="n">hs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_height</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/image_size_filter.html b/_modules/data_juicer/ops/filter/image_size_filter.html
index c4ce8c10e..c004b2b77 100644
--- a/_modules/data_juicer/ops/filter/image_size_filter.html
+++ b/_modules/data_juicer/ops/filter/image_size_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.filter.image_size_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageSizeFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_size_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageSizeFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Keep data samples whose image size (in Bytes/KB/MB/...) within a</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.filter.image_size_filter</h1><div class="hig
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageSizeFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;0&#39;</span><span class="p">,</span>
                  <span class="n">max_size</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;1TB&#39;</span><span class="p">,</span>
@@ -127,7 +127,7 @@ <h1>Source code for data_juicer.ops.filter.image_size_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageSizeFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_sizes</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -148,7 +148,7 @@ <h1>Source code for data_juicer.ops.filter.image_size_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageSizeFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">image_sizes</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_sizes</span><span class="p">]</span>
         <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
diff --git a/_modules/data_juicer/ops/filter/image_text_matching_filter.html b/_modules/data_juicer/ops/filter/image_text_matching_filter.html
index 1bdb8f7d2..ef4818563 100644
--- a/_modules/data_juicer/ops/filter/image_text_matching_filter.html
+++ b/_modules/data_juicer/ops/filter/image_text_matching_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_matching_filter</h1><div c
 
 
 <div class="viewcode-block" id="ImageTextMatchingFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageTextMatchingFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_matching_filter</h1><div c
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="ImageTextMatchingFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_blip</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip-itm-base-coco&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -155,7 +155,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_matching_filter</h1><div c
 
 
 <div class="viewcode-block" id="ImageTextMatchingFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_matching_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -223,7 +223,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_matching_filter</h1><div c
 
 
 <div class="viewcode-block" id="ImageTextMatchingFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_matching_score</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/image_text_similarity_filter.html b/_modules/data_juicer/ops/filter/image_text_similarity_filter.html
index da07c9ee5..20670fb84 100644
--- a/_modules/data_juicer/ops/filter/image_text_similarity_filter.html
+++ b/_modules/data_juicer/ops/filter/image_text_similarity_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_similarity_filter</h1><div
 
 
 <div class="viewcode-block" id="ImageTextSimilarityFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageTextSimilarityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_similarity_filter</h1><div
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageTextSimilarityFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_clip</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;openai/clip-vit-base-patch32&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -156,7 +156,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_similarity_filter</h1><div
 
 
 <div class="viewcode-block" id="ImageTextSimilarityFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_similarity</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -221,7 +221,7 @@ <h1>Source code for data_juicer.ops.filter.image_text_similarity_filter</h1><div
 
 
 <div class="viewcode-block" id="ImageTextSimilarityFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">similarity</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_text_similarity</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">similarity</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/image_watermark_filter.html b/_modules/data_juicer/ops/filter/image_watermark_filter.html
index 19928a3d1..992d41aaf 100644
--- a/_modules/data_juicer/ops/filter/image_watermark_filter.html
+++ b/_modules/data_juicer/ops/filter/image_watermark_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.filter.image_watermark_filter</h1><div class
 
 
 <div class="viewcode-block" id="ImageWatermarkFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageWatermarkFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -105,7 +105,7 @@ <h1>Source code for data_juicer.ops.filter.image_watermark_filter</h1><div class
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="ImageWatermarkFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_watermark_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;amrul-hzz/watermark_detector&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -142,7 +142,7 @@ <h1>Source code for data_juicer.ops.filter.image_watermark_filter</h1><div class
 
 
 <div class="viewcode-block" id="ImageWatermarkFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_watermark_prob</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -175,7 +175,7 @@ <h1>Source code for data_juicer.ops.filter.image_watermark_filter</h1><div class
 
 
 <div class="viewcode-block" id="ImageWatermarkFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">itm_probs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">image_watermark_prob</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_probs</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/language_id_score_filter.html b/_modules/data_juicer/ops/filter/language_id_score_filter.html
index cc5ba93f0..c29091e5d 100644
--- a/_modules/data_juicer/ops/filter/language_id_score_filter.html
+++ b/_modules/data_juicer/ops/filter/language_id_score_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,14 +93,14 @@ <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div cla
 
 
 <div class="viewcode-block" id="LanguageIDScoreFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">LanguageIDScoreFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples in a specific language with confidence score</span>
 <span class="sd">    larger than a specific min value.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="LanguageIDScoreFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.8</span><span class="p">,</span>
@@ -130,7 +130,7 @@ <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div cla
 
 
 <div class="viewcode-block" id="LanguageIDScoreFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span>
@@ -154,7 +154,7 @@ <h1>Source code for data_juicer.ops.filter.language_id_score_filter</h1><div cla
 
 
 <div class="viewcode-block" id="LanguageIDScoreFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">lang</span><span class="p">]</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">lang</span> \
diff --git a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
index 3515f9640..905fa749f 100644
--- a/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
+++ b/_modules/data_juicer/ops/filter/maximum_line_length_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div c
 
 
 <div class="viewcode-block" id="MaximumLineLengthFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_LINES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">MaximumLineLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div c
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="MaximumLineLengthFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -122,7 +122,7 @@ <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div c
 
 
 <div class="viewcode-block" id="MaximumLineLengthFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -147,7 +147,7 @@ <h1>Source code for data_juicer.ops.filter.maximum_line_length_filter</h1><div c
 
 
 <div class="viewcode-block" id="MaximumLineLengthFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/perplexity_filter.html b/_modules/data_juicer/ops/filter/perplexity_filter.html
index d8013b8af..56a498dbd 100644
--- a/_modules/data_juicer/ops/filter/perplexity_filter.html
+++ b/_modules/data_juicer/ops/filter/perplexity_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="PerplexityFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">PerplexityFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="hig
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="PerplexityFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">max_ppl</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1500</span><span class="p">,</span>
@@ -126,7 +126,7 @@ <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="PerplexityFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -161,7 +161,7 @@ <h1>Source code for data_juicer.ops.filter.perplexity_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="PerplexityFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span><span class="k">lambda</span> <span class="n">stat</span><span class="p">:</span> <span class="n">stat</span><span class="p">[</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">perplexity</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_ppl</span><span class="p">,</span>
diff --git a/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html b/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html
index 32643fa90..636a64437 100644
--- a/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html
+++ b/_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -101,6 +101,8 @@ <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><d
 
 <span class="c1"># NER algorithm adapted from GLIP starts</span>
 <span class="c1"># https://github.com/microsoft/GLIP/blob/main/maskrcnn_benchmark/engine/predictor_glip.py#L107-L127</span>
+<div class="viewcode-block" id="find_noun_phrases">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases">[docs]</a>
 <span class="k">def</span> <span class="nf">find_noun_phrases</span><span class="p">(</span><span class="n">caption</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
     <span class="n">caption</span> <span class="o">=</span> <span class="n">caption</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
     <span class="n">tokens</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">word_tokenize</span><span class="p">(</span><span class="n">caption</span><span class="p">)</span>
@@ -115,9 +117,12 @@ <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><d
         <span class="k">if</span> <span class="n">subtree</span><span class="o">.</span><span class="n">label</span><span class="p">()</span> <span class="o">==</span> <span class="s1">&#39;NP&#39;</span><span class="p">:</span>
             <span class="n">noun_phrases</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">t</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">subtree</span><span class="o">.</span><span class="n">leaves</span><span class="p">()))</span>
 
-    <span class="k">return</span> <span class="n">noun_phrases</span>
+    <span class="k">return</span> <span class="n">noun_phrases</span></div>
 
 
+
+<div class="viewcode-block" id="remove_punctuation">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation">[docs]</a>
 <span class="k">def</span> <span class="nf">remove_punctuation</span><span class="p">(</span><span class="n">text</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
     <span class="n">punct</span> <span class="o">=</span> <span class="p">[</span>
         <span class="s1">&#39;|&#39;</span><span class="p">,</span> <span class="s1">&#39;:&#39;</span><span class="p">,</span> <span class="s1">&#39;;&#39;</span><span class="p">,</span> <span class="s1">&#39;@&#39;</span><span class="p">,</span> <span class="s1">&#39;(&#39;</span><span class="p">,</span> <span class="s1">&#39;)&#39;</span><span class="p">,</span> <span class="s1">&#39;[&#39;</span><span class="p">,</span> <span class="s1">&#39;]&#39;</span><span class="p">,</span> <span class="s1">&#39;{&#39;</span><span class="p">,</span> <span class="s1">&#39;}&#39;</span><span class="p">,</span> <span class="s1">&#39;^&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\&#39;</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39;</span><span class="se">\&quot;</span><span class="s1">&#39;</span><span class="p">,</span> <span class="s1">&#39;’&#39;</span><span class="p">,</span>
@@ -125,22 +130,26 @@ <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><d
     <span class="p">]</span>
     <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">punct</span><span class="p">:</span>
         <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span></div>
+
 
 
+<div class="viewcode-block" id="run_ner">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner">[docs]</a>
 <span class="k">def</span> <span class="nf">run_ner</span><span class="p">(</span><span class="n">caption</span><span class="p">):</span>
     <span class="n">noun_phrases</span> <span class="o">=</span> <span class="n">find_noun_phrases</span><span class="p">(</span><span class="n">caption</span><span class="p">)</span>
     <span class="n">noun_phrases</span> <span class="o">=</span> <span class="p">[</span><span class="n">remove_punctuation</span><span class="p">(</span><span class="n">phrase</span><span class="p">)</span> <span class="k">for</span> <span class="n">phrase</span> <span class="ow">in</span> <span class="n">noun_phrases</span><span class="p">]</span>
     <span class="n">noun_phrases</span> <span class="o">=</span> <span class="p">[</span><span class="n">phrase</span> <span class="k">for</span> <span class="n">phrase</span> <span class="ow">in</span> <span class="n">noun_phrases</span> <span class="k">if</span> <span class="n">phrase</span> <span class="o">!=</span> <span class="s1">&#39;&#39;</span><span class="p">]</span>
     <span class="n">noun_phrases</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">noun_phrases</span><span class="p">))</span>  <span class="c1"># remove duplicate ners</span>
-    <span class="k">return</span> <span class="n">noun_phrases</span>
+    <span class="k">return</span> <span class="n">noun_phrases</span></div>
+
 
 
 <span class="c1"># NER algorithm adapted from GLIP ends</span>
 
 
 <div class="viewcode-block" id="PhraseGroundingRecallFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">PhraseGroundingRecallFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -150,7 +159,7 @@ <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><d
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="PhraseGroundingRecallFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_owlvit</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;google/owlvit-base-patch32&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -226,7 +235,7 @@ <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><d
 
 
 <div class="viewcode-block" id="PhraseGroundingRecallFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">phrase_grounding_recall</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -343,7 +352,7 @@ <h1>Source code for data_juicer.ops.filter.phrase_grounding_recall_filter</h1><d
 
 
 <div class="viewcode-block" id="PhraseGroundingRecallFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">recalls</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">phrase_grounding_recall</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">recalls</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/special_characters_filter.html b/_modules/data_juicer/ops/filter/special_characters_filter.html
index 456ae2808..10ab9020f 100644
--- a/_modules/data_juicer/ops/filter/special_characters_filter.html
+++ b/_modules/data_juicer/ops/filter/special_characters_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div cl
 
 
 <div class="viewcode-block" id="SpecialCharactersFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;special_characters_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">SpecialCharactersFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with special-char ratio within a specific</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div cl
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="SpecialCharactersFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
@@ -121,7 +121,7 @@ <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div cl
 
 
 <div class="viewcode-block" id="SpecialCharactersFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -140,7 +140,7 @@ <h1>Source code for data_juicer.ops.filter.special_characters_filter</h1><div cl
 
 
 <div class="viewcode-block" id="SpecialCharactersFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/specified_field_filter.html b/_modules/data_juicer/ops/filter/specified_field_filter.html
index e842feb49..c4ef839c8 100644
--- a/_modules/data_juicer/ops/filter/specified_field_filter.html
+++ b/_modules/data_juicer/ops/filter/specified_field_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class
 
 
 <div class="viewcode-block" id="SpecifiedFieldFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">[docs]</a>
 <span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">SpecifiedFieldFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="SpecifiedFieldFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">target_value</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="p">[],</span>
@@ -121,13 +121,13 @@ <h1>Source code for data_juicer.ops.filter.specified_field_filter</h1><div class
 
 
 <div class="viewcode-block" id="SpecifiedFieldFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span></div>
 
 
 <div class="viewcode-block" id="SpecifiedFieldFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">field_key</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">target_value</span><span class="p">):</span>
             <span class="k">return</span> <span class="kc">True</span>
diff --git a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
index 9a1623703..1cfe610ba 100644
--- a/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
+++ b/_modules/data_juicer/ops/filter/specified_numeric_field_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -82,6 +82,8 @@ <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><d
 <span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">NON_STATS_FILTERS</span><span class="p">,</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Filter</span>
 
 
+<div class="viewcode-block" id="is_number">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number">[docs]</a>
 <span class="k">def</span> <span class="nf">is_number</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
     <span class="k">if</span> <span class="n">s</span><span class="p">:</span>
         <span class="k">try</span><span class="p">:</span>
@@ -89,14 +91,15 @@ <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><d
             <span class="k">return</span> <span class="kc">True</span>
         <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
             <span class="k">pass</span>
-    <span class="k">return</span> <span class="kc">False</span>
+    <span class="k">return</span> <span class="kc">False</span></div>
+
 
 
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;specified_numeric_field_filter&#39;</span>
 
 
 <div class="viewcode-block" id="SpecifiedNumericFieldFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">[docs]</a>
 <span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">SpecifiedNumericFieldFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -108,7 +111,7 @@ <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><d
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="SpecifiedNumericFieldFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">min_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -138,13 +141,13 @@ <h1>Source code for data_juicer.ops.filter.specified_numeric_field_filter</h1><d
 
 
 <div class="viewcode-block" id="SpecifiedNumericFieldFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span></div>
 
 
 <div class="viewcode-block" id="SpecifiedNumericFieldFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
             <span class="k">return</span> <span class="kc">True</span>
diff --git a/_modules/data_juicer/ops/filter/stopwords_filter.html b/_modules/data_juicer/ops/filter/stopwords_filter.html
index 0d40b20f7..18fd56f24 100644
--- a/_modules/data_juicer/ops/filter/stopwords_filter.html
+++ b/_modules/data_juicer/ops/filter/stopwords_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="StopWordsFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">StopWordsFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -106,7 +106,7 @@ <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="high
 <span class="sd">    value.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="StopWordsFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -155,7 +155,7 @@ <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="StopWordsFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -205,7 +205,7 @@ <h1>Source code for data_juicer.ops.filter.stopwords_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="StopWordsFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
             <span class="n">StatsKeys</span><span class="o">.</span><span class="n">stopwords_ratio</span><span class="p">]</span> <span class="o">&gt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_ratio</span></div>
diff --git a/_modules/data_juicer/ops/filter/suffix_filter.html b/_modules/data_juicer/ops/filter/suffix_filter.html
index 7e64b512d..1b3f746b1 100644
--- a/_modules/data_juicer/ops/filter/suffix_filter.html
+++ b/_modules/data_juicer/ops/filter/suffix_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,14 +87,14 @@ <h1>Source code for data_juicer.ops.filter.suffix_filter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="SuffixFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter">[docs]</a>
 <span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">SuffixFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with specified suffix.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="SuffixFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="p">[],</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -114,13 +114,13 @@ <h1>Source code for data_juicer.ops.filter.suffix_filter</h1><div class="highlig
 
 
 <div class="viewcode-block" id="SuffixFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">sample</span></div>
 
 
 <div class="viewcode-block" id="SuffixFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span><span class="p">:</span>
             <span class="k">if</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">suffix</span><span class="p">]</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">suffixes</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/text_action_filter.html b/_modules/data_juicer/ops/filter/text_action_filter.html
index 319b7433a..c5137611c 100644
--- a/_modules/data_juicer/ops/filter/text_action_filter.html
+++ b/_modules/data_juicer/ops/filter/text_action_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.filter.text_action_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="TextActionFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">TextActionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.filter.text_action_filter</h1><div class="hi
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="TextActionFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">min_action_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
@@ -127,7 +127,7 @@ <h1>Source code for data_juicer.ops.filter.text_action_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="TextActionFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_action</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -149,7 +149,7 @@ <h1>Source code for data_juicer.ops.filter.text_action_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="TextActionFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">num_action</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_action</span><span class="p">]</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_action_num</span> <span class="o">&lt;=</span> <span class="n">num_action</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html b/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html
index 8633378de..589867b9e 100644
--- a/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html
+++ b/_modules/data_juicer/ops/filter/text_entity_dependency_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.filter.text_entity_dependency_filter</h1><di
 
 
 <div class="viewcode-block" id="TextEntityDependencyFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">TextEntityDependencyFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.filter.text_entity_dependency_filter</h1><di
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="TextEntityDependencyFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">min_dependency_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
@@ -138,7 +138,7 @@ <h1>Source code for data_juicer.ops.filter.text_entity_dependency_filter</h1><di
 
 
 <div class="viewcode-block" id="TextEntityDependencyFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_dependency_edges</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -176,7 +176,7 @@ <h1>Source code for data_juicer.ops.filter.text_entity_dependency_filter</h1><di
 
 
 <div class="viewcode-block" id="TextEntityDependencyFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">num_dependency_edges</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
             <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_dependency_edges</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/text_length_filter.html b/_modules/data_juicer/ops/filter/text_length_filter.html
index bdf54f815..0d3f37e43 100644
--- a/_modules/data_juicer/ops/filter/text_length_filter.html
+++ b/_modules/data_juicer/ops/filter/text_length_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="TextLengthFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;text_length_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">TextLengthFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total text length within a specific</span>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="hi
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="TextLengthFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -118,7 +118,7 @@ <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="TextLengthFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -133,7 +133,7 @@ <h1>Source code for data_juicer.ops.filter.text_length_filter</h1><div class="hi
 
 
 <div class="viewcode-block" id="TextLengthFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/token_num_filter.html b/_modules/data_juicer/ops/filter/token_num_filter.html
index ce288b6dc..79f44e83a 100644
--- a/_modules/data_juicer/ops/filter/token_num_filter.html
+++ b/_modules/data_juicer/ops/filter/token_num_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,14 +89,14 @@ <h1>Source code for data_juicer.ops.filter.token_num_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="TokenNumFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">TokenNumFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Filter to keep samples with total token number within a specific</span>
 <span class="sd">    range.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="TokenNumFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_tokenizer</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;EleutherAI/pythia-6.9b-deduped&#39;</span><span class="p">,</span>
                  <span class="n">min_num</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
@@ -127,7 +127,7 @@ <h1>Source code for data_juicer.ops.filter.token_num_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="TokenNumFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_token</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -142,7 +142,7 @@ <h1>Source code for data_juicer.ops.filter.token_num_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="TokenNumFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_num</span> <span class="o">&lt;=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
                 <span class="n">StatsKeys</span><span class="o">.</span><span class="n">num_token</span><span class="p">]</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_num</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/video_aesthetics_filter.html b/_modules/data_juicer/ops/filter/video_aesthetics_filter.html
index 7b87f89e7..f45a3b490 100644
--- a/_modules/data_juicer/ops/filter/video_aesthetics_filter.html
+++ b/_modules/data_juicer/ops/filter/video_aesthetics_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.filter.video_aesthetics_filter</h1><div clas
 
 
 <div class="viewcode-block" id="VideoAestheticsFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -109,7 +109,7 @@ <h1>Source code for data_juicer.ops.filter.video_aesthetics_filter</h1><div clas
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoAestheticsFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_scorer_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -195,7 +195,7 @@ <h1>Source code for data_juicer.ops.filter.video_aesthetics_filter</h1><div clas
 
 
 <div class="viewcode-block" id="VideoAestheticsFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_aesthetics_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -273,7 +273,7 @@ <h1>Source code for data_juicer.ops.filter.video_aesthetics_filter</h1><div clas
 
 
 <div class="viewcode-block" id="VideoAestheticsFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">aesthetics_scores</span> <span class="o">=</span> <span class="p">(</span>
             <span class="n">sample</span><span class="p">)[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_aesthetics_score</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html b/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html
index 041e2c67d..a86181d0b 100644
--- a/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html
+++ b/_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.filter.video_aspect_ratio_filter</h1><div cl
 
 
 <div class="viewcode-block" id="VideoAspectRatioFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;video_aspect_ratio_filter&#39;</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;video_aspect_ratio_filter&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoAspectRatioFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.filter.video_aspect_ratio_filter</h1><div cl
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoAspectRatioFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;9/21&#39;</span><span class="p">,</span>
                  <span class="n">max_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;21/9&#39;</span><span class="p">,</span>
@@ -130,7 +130,7 @@ <h1>Source code for data_juicer.ops.filter.video_aspect_ratio_filter</h1><div cl
 
 
 <div class="viewcode-block" id="VideoAspectRatioFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_aspect_ratios</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -164,7 +164,7 @@ <h1>Source code for data_juicer.ops.filter.video_aspect_ratio_filter</h1><div cl
 
 
 <div class="viewcode-block" id="VideoAspectRatioFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">video_aspect_ratios</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
             <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_aspect_ratios</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/video_duration_filter.html b/_modules/data_juicer/ops/filter/video_duration_filter.html
index 47e301ee1..87c43dfea 100644
--- a/_modules/data_juicer/ops/filter/video_duration_filter.html
+++ b/_modules/data_juicer/ops/filter/video_duration_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.filter.video_duration_filter</h1><div class=
 
 
 <div class="viewcode-block" id="VideoDurationFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoDurationFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.filter.video_duration_filter</h1><div class=
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoDurationFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
                  <span class="n">max_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.filter.video_duration_filter</h1><div class=
 
 
 <div class="viewcode-block" id="VideoDurationFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_duration</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -165,7 +165,7 @@ <h1>Source code for data_juicer.ops.filter.video_duration_filter</h1><div class=
 
 
 <div class="viewcode-block" id="VideoDurationFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">video_durations</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_duration</span><span class="p">]</span>
         <span class="n">keep_bools</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span>
diff --git a/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html b/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html
index fbda95a20..5ec8ee882 100644
--- a/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html
+++ b/_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.filter.video_frames_text_similarity_filter</
 
 
 <div class="viewcode-block" id="VideoFramesTextSimilarityFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -107,7 +107,7 @@ <h1>Source code for data_juicer.ops.filter.video_frames_text_similarity_filter</
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoFramesTextSimilarityFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_clip</span><span class="o">=</span><span class="s1">&#39;openai/clip-vit-base-patch32&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
@@ -188,7 +188,7 @@ <h1>Source code for data_juicer.ops.filter.video_frames_text_similarity_filter</
 
 
 <div class="viewcode-block" id="VideoFramesTextSimilarityFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_text_similarity</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -285,7 +285,7 @@ <h1>Source code for data_juicer.ops.filter.video_frames_text_similarity_filter</
 
 
 <div class="viewcode-block" id="VideoFramesTextSimilarityFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">similarity</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
             <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_frames_text_similarity</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/video_motion_score_filter.html b/_modules/data_juicer/ops/filter/video_motion_score_filter.html
index 63a58f7b1..bbdad5078 100644
--- a/_modules/data_juicer/ops/filter/video_motion_score_filter.html
+++ b/_modules/data_juicer/ops/filter/video_motion_score_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -95,17 +95,20 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_filter</h1><div cl
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_motion_score_filter&#39;</span>
 
 
+<div class="viewcode-block" id="VideoCapture">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoCapture">[docs]</a>
 <span class="nd">@contextmanager</span>
 <span class="k">def</span> <span class="nf">VideoCapture</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
     <span class="n">cap</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">VideoCapture</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
     <span class="k">try</span><span class="p">:</span>
         <span class="k">yield</span> <span class="n">cap</span>
     <span class="k">finally</span><span class="p">:</span>
-        <span class="n">cap</span><span class="o">.</span><span class="n">release</span><span class="p">()</span>
+        <span class="n">cap</span><span class="o">.</span><span class="n">release</span><span class="p">()</span></div>
+
 
 
 <div class="viewcode-block" id="VideoMotionScoreFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoMotionScoreFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -124,7 +127,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_filter</h1><div cl
     <span class="p">}</span>
 
 <div class="viewcode-block" id="VideoMotionScoreFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.25</span><span class="p">,</span>
                  <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">float_info</span><span class="o">.</span><span class="n">max</span><span class="p">,</span>
@@ -193,13 +196,13 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_filter</h1><div cl
 
 
 <div class="viewcode-block" id="VideoMotionScoreFilter.setup_model">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model">[docs]</a>
     <span class="k">def</span> <span class="nf">setup_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">calcOpticalFlowFarneback</span></div>
 
 
 <div class="viewcode-block" id="VideoMotionScoreFilter.compute_flow">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_flow</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prev_frame</span><span class="p">,</span> <span class="n">curr_frame</span><span class="p">):</span>
         <span class="n">curr_frame</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">cvtColor</span><span class="p">(</span><span class="n">curr_frame</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">COLOR_BGR2GRAY</span><span class="p">)</span>
         <span class="k">if</span> <span class="n">prev_frame</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
@@ -211,7 +214,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_filter</h1><div cl
 
 
 <div class="viewcode-block" id="VideoMotionScoreFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span>
 
@@ -294,7 +297,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_filter</h1><div cl
 
 
 <div class="viewcode-block" id="VideoMotionScoreFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">video_motion_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
             <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_motion_score</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html b/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html
index c9d557b2f..12566d425 100644
--- a/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html
+++ b/_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_raft_filter</h1><d
 
 
 <div class="viewcode-block" id="VideoMotionScoreRaftFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoMotionScoreRaftFilter</span><span class="p">(</span><span class="n">VideoMotionScoreFilter</span><span class="p">):</span>
@@ -116,7 +116,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_raft_filter</h1><d
     <span class="n">_default_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
 
 <div class="viewcode-block" id="VideoMotionScoreRaftFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
                  <span class="n">max_score</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">float_info</span><span class="o">.</span><span class="n">max</span><span class="p">,</span>
@@ -134,7 +134,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_raft_filter</h1><d
 
 
 <div class="viewcode-block" id="VideoMotionScoreRaftFilter.setup_model">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model">[docs]</a>
     <span class="k">def</span> <span class="nf">setup_model</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">tvm</span><span class="o">.</span><span class="n">optical_flow</span><span class="o">.</span><span class="n">raft_large</span><span class="p">(</span>
             <span class="n">weights</span><span class="o">=</span><span class="n">tvm</span><span class="o">.</span><span class="n">optical_flow</span><span class="o">.</span><span class="n">Raft_Large_Weights</span><span class="o">.</span><span class="n">DEFAULT</span><span class="p">,</span>
@@ -156,7 +156,7 @@ <h1>Source code for data_juicer.ops.filter.video_motion_score_raft_filter</h1><d
 
 
 <div class="viewcode-block" id="VideoMotionScoreRaftFilter.compute_flow">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_flow</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prev_frame</span><span class="p">,</span> <span class="n">curr_frame</span><span class="p">):</span>
         <span class="n">curr_frame</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transforms</span><span class="p">(</span><span class="n">curr_frame</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
         <span class="k">if</span> <span class="n">prev_frame</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/video_nsfw_filter.html b/_modules/data_juicer/ops/filter/video_nsfw_filter.html
index 94a23cb27..a42d35226 100644
--- a/_modules/data_juicer/ops/filter/video_nsfw_filter.html
+++ b/_modules/data_juicer/ops/filter/video_nsfw_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.filter.video_nsfw_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="VideoNSFWFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -106,7 +106,7 @@ <h1>Source code for data_juicer.ops.filter.video_nsfw_filter</h1><div class="hig
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoNSFWFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_nsfw_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Falconsai/nsfw_image_detection&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -177,7 +177,7 @@ <h1>Source code for data_juicer.ops.filter.video_nsfw_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="VideoNSFWFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_nsfw_score</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -250,7 +250,7 @@ <h1>Source code for data_juicer.ops.filter.video_nsfw_filter</h1><div class="hig
 
 
 <div class="viewcode-block" id="VideoNSFWFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">itm_scores</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_nsfw_score</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_scores</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html b/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html
index 1342e9dbd..d63c24563 100644
--- a/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html
+++ b/_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -97,6 +97,8 @@ <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_ocr_area_ratio_filter&#39;</span>
 
 
+<div class="viewcode-block" id="triangle_area">
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area">[docs]</a>
 <span class="k">def</span> <span class="nf">triangle_area</span><span class="p">(</span><span class="n">p1</span><span class="p">,</span> <span class="n">p2</span><span class="p">,</span> <span class="n">p3</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Compute the triangle area according to its coordinates.</span>
@@ -106,11 +108,12 @@ <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div
     <span class="n">x3</span><span class="p">,</span> <span class="n">y3</span> <span class="o">=</span> <span class="n">p3</span>
     <span class="n">tri_area</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="n">np</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">x1</span> <span class="o">*</span> <span class="n">y2</span> <span class="o">+</span> <span class="n">x2</span> <span class="o">*</span> <span class="n">y3</span> <span class="o">+</span> <span class="n">x3</span> <span class="o">*</span> <span class="n">y1</span> <span class="o">-</span> <span class="n">x2</span> <span class="o">*</span> <span class="n">y1</span> <span class="o">-</span> <span class="n">x3</span> <span class="o">*</span> <span class="n">y2</span> <span class="o">-</span>
                             <span class="n">x1</span> <span class="o">*</span> <span class="n">y3</span><span class="p">)</span>
-    <span class="k">return</span> <span class="n">tri_area</span>
+    <span class="k">return</span> <span class="n">tri_area</span></div>
+
 
 
 <div class="viewcode-block" id="VideoOcrAreaRatioFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -123,7 +126,7 @@ <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoOcrAreaRatioFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_area_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
                  <span class="n">max_area_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
@@ -177,7 +180,7 @@ <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div
 
 
 <div class="viewcode-block" id="VideoOcrAreaRatioFilter.get_reader">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader">[docs]</a>
     <span class="k">def</span> <span class="nf">get_reader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rank</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">():</span>
             <span class="n">rank</span> <span class="o">=</span> <span class="mi">0</span> <span class="k">if</span> <span class="n">rank</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">rank</span>
@@ -188,7 +191,7 @@ <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div
 
 
 <div class="viewcode-block" id="VideoOcrAreaRatioFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_ocr_area_ratio</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -272,7 +275,7 @@ <h1>Source code for data_juicer.ops.filter.video_ocr_area_ratio_filter</h1><div
 
 
 <div class="viewcode-block" id="VideoOcrAreaRatioFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">video_ocr_area_ratios</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span>
             <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_ocr_area_ratio</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/video_resolution_filter.html b/_modules/data_juicer/ops/filter/video_resolution_filter.html
index 73d10dfd1..098f0a1bd 100644
--- a/_modules/data_juicer/ops/filter/video_resolution_filter.html
+++ b/_modules/data_juicer/ops/filter/video_resolution_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.filter.video_resolution_filter</h1><div clas
 
 
 <div class="viewcode-block" id="VideoResolutionFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoResolutionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.filter.video_resolution_filter</h1><div clas
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoResolutionFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">max_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -135,7 +135,7 @@ <h1>Source code for data_juicer.ops.filter.video_resolution_filter</h1><div clas
 
 
 <div class="viewcode-block" id="VideoResolutionFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_width</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span> \
@@ -183,7 +183,7 @@ <h1>Source code for data_juicer.ops.filter.video_resolution_filter</h1><div clas
 
 
 <div class="viewcode-block" id="VideoResolutionFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">ws</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_width</span><span class="p">]</span>
         <span class="n">hs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_height</span><span class="p">]</span>
diff --git a/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html b/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html
index 59bd70a70..0aa280f16 100644
--- a/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html
+++ b/_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.filter.video_tagging_from_frames_filter</h1>
 
 
 <div class="viewcode-block" id="VideoTaggingFromFramesFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter">[docs]</a>
 <span class="nd">@NON_STATS_FILTERS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -107,7 +107,7 @@ <h1>Source code for data_juicer.ops.filter.video_tagging_from_frames_filter</h1>
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoTaggingFromFramesFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">tags</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;people&#39;</span><span class="p">],</span>
                  <span class="n">contain</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;any&#39;</span><span class="p">,</span>
@@ -172,7 +172,7 @@ <h1>Source code for data_juicer.ops.filter.video_tagging_from_frames_filter</h1>
 
 
 <div class="viewcode-block" id="VideoTaggingFromFramesFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 
         <span class="n">sample</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tagging_producer</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="n">context</span><span class="p">)</span>
@@ -181,7 +181,7 @@ <h1>Source code for data_juicer.ops.filter.video_tagging_from_frames_filter</h1>
 
 
 <div class="viewcode-block" id="VideoTaggingFromFramesFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">video_tags</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">][</span><span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">video_tags</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/video_watermark_filter.html b/_modules/data_juicer/ops/filter/video_watermark_filter.html
index 16ccc8fe3..ce9d24345 100644
--- a/_modules/data_juicer/ops/filter/video_watermark_filter.html
+++ b/_modules/data_juicer/ops/filter/video_watermark_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.filter.video_watermark_filter</h1><div class
 
 
 <div class="viewcode-block" id="VideoWatermarkFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_SAMPLED_FRAMES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -109,7 +109,7 @@ <h1>Source code for data_juicer.ops.filter.video_watermark_filter</h1><div class
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoWatermarkFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_watermark_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;amrul-hzz/watermark_detector&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -181,7 +181,7 @@ <h1>Source code for data_juicer.ops.filter.video_watermark_filter</h1><div class
 
 
 <div class="viewcode-block" id="VideoWatermarkFilter.compute_stats_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s computed already</span>
         <span class="k">if</span> <span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_watermark_prob</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]:</span>
@@ -252,7 +252,7 @@ <h1>Source code for data_juicer.ops.filter.video_watermark_filter</h1><div class
 
 
 <div class="viewcode-block" id="VideoWatermarkFilter.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">itm_probs</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">][</span><span class="n">StatsKeys</span><span class="o">.</span><span class="n">video_watermark_prob</span><span class="p">]</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">itm_probs</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/filter/word_repetition_filter.html b/_modules/data_juicer/ops/filter/word_repetition_filter.html
index f828b1c55..7246394f5 100644
--- a/_modules/data_juicer/ops/filter/word_repetition_filter.html
+++ b/_modules/data_juicer/ops/filter/word_repetition_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class
 
 
 <div class="viewcode-block" id="WordRepetitionFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">WordRepetitionFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -105,7 +105,7 @@ <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="WordRepetitionFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -142,7 +142,7 @@ <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class
 
 
 <div class="viewcode-block" id="WordRepetitionFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -198,7 +198,7 @@ <h1>Source code for data_juicer.ops.filter.word_repetition_filter</h1><div class
 
 
 <div class="viewcode-block" id="WordRepetitionFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/filter/words_num_filter.html b/_modules/data_juicer/ops/filter/words_num_filter.html
index 62beea617..da319200b 100644
--- a/_modules/data_juicer/ops/filter/words_num_filter.html
+++ b/_modules/data_juicer/ops/filter/words_num_filter.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.filter.words_num_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="WordsNumFilter">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@INTER_WORDS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">WordsNumFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
@@ -101,7 +101,7 @@ <h1>Source code for data_juicer.ops.filter.words_num_filter</h1><div class="high
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="WordsNumFilter.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -135,7 +135,7 @@ <h1>Source code for data_juicer.ops.filter.words_num_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="WordsNumFilter.compute_stats_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.compute_stats_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="n">samples_list</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span>
         <span class="n">samples_stats</span> <span class="o">=</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">]</span>
@@ -162,7 +162,7 @@ <h1>Source code for data_juicer.ops.filter.words_num_filter</h1><div class="high
 
 
 <div class="viewcode-block" id="WordsNumFilter.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
             <span class="k">return</span> <span class="nb">map</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/grouper/key_value_grouper.html b/_modules/data_juicer/ops/grouper/key_value_grouper.html
index ce0226326..931cfc7a8 100644
--- a/_modules/data_juicer/ops/grouper/key_value_grouper.html
+++ b/_modules/data_juicer/ops/grouper/key_value_grouper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,13 +86,13 @@ <h1>Source code for data_juicer.ops.grouper.key_value_grouper</h1><div class="hi
 
 
 <div class="viewcode-block" id="KeyValueGrouper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;key_value_grouper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">KeyValueGrouper</span><span class="p">(</span><span class="n">Grouper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Group samples to batched samples according values in given keys. &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="KeyValueGrouper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">group_by_keys</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -113,7 +113,7 @@ <h1>Source code for data_juicer.ops.grouper.key_value_grouper</h1><div class="hi
 
 
 <div class="viewcode-block" id="KeyValueGrouper.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/grouper/naive_grouper.html b/_modules/data_juicer/ops/grouper/naive_grouper.html
index 270102837..36e0ce569 100644
--- a/_modules/data_juicer/ops/grouper/naive_grouper.html
+++ b/_modules/data_juicer/ops/grouper/naive_grouper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,13 +81,13 @@ <h1>Source code for data_juicer.ops.grouper.naive_grouper</h1><div class="highli
 
 
 <div class="viewcode-block" id="NaiveGrouper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;naive_grouper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">NaiveGrouper</span><span class="p">(</span><span class="n">Grouper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Group all samples to one batched sample. &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="NaiveGrouper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.grouper.naive_grouper</h1><div class="highli
 
 
 <div class="viewcode-block" id="NaiveGrouper.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/load.html b/_modules/data_juicer/ops/load.html
index 5370d1617..a885d2a55 100644
--- a/_modules/data_juicer/ops/load.html
+++ b/_modules/data_juicer/ops/load.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -81,7 +81,7 @@ <h1>Source code for data_juicer.ops.load</h1><div class="highlight"><pre>
 
 
 <div class="viewcode-block" id="load_ops">
-<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.load_ops">[docs]</a>
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.load.load_ops">[docs]</a>
 <span class="k">def</span> <span class="nf">load_ops</span><span class="p">(</span><span class="n">process_list</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">    Load op list according to the process list from config file.</span>
diff --git a/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html b/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html
index e34317b19..6403c5b7b 100644
--- a/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html
+++ b/_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,14 +93,14 @@ <h1>Source code for data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</h1><div
 
 
 <div class="viewcode-block" id="AudioFFmpegWrappedMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">AudioFFmpegWrappedMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Simple wrapper for FFmpeg audio filters.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="AudioFFmpegWrappedMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">filter_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -133,7 +133,7 @@ <h1>Source code for data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</h1><div
 
 
 <div class="viewcode-block" id="AudioFFmpegWrappedMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># there is no audio in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">audio_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html b/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html
index 9f32c8f6b..5310dc616 100644
--- a/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html
+++ b/_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_qa_mapper</h1><div class="h
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="CalibrateQAMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CalibrateQAMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -111,7 +111,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_qa_mapper</h1><div class="h
     <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;【问题】\s*(.*?)\s*【回答】\s*(.*)&#39;</span>
 
 <div class="viewcode-block" id="CalibrateQAMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -165,7 +165,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_qa_mapper</h1><div class="h
 
 
 <div class="viewcode-block" id="CalibrateQAMapper.build_input">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.build_input">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input">[docs]</a>
     <span class="k">def</span> <span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">reference</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">reference_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
         <span class="n">qa_pair</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span>
@@ -176,7 +176,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_qa_mapper</h1><div class="h
 
 
 <div class="viewcode-block" id="CalibrateQAMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">)</span>
         <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
@@ -186,7 +186,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_qa_mapper</h1><div class="h
 
 
 <div class="viewcode-block" id="CalibrateQAMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html b/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html
index cd3e30a6d..641210e47 100644
--- a/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html
+++ b/_modules/data_juicer/ops/mapper/calibrate_query_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_query_mapper</h1><div class
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="CalibrateQueryMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CalibrateQueryMapper</span><span class="p">(</span><span class="n">CalibrateQAMapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_query_mapper</h1><div class
 <span class="s1">        使其更加详细、准确，且仍可以由原答案回答。只输出校准后的问题，不要输出多余内容。&#39;</span>
 
 <div class="viewcode-block" id="CalibrateQueryMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="kc">None</span></div>
 </div>
diff --git a/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html b/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html
index 51ed16700..5af0be844 100644
--- a/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html
+++ b/_modules/data_juicer/ops/mapper/calibrate_response_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_response_mapper</h1><div cl
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="CalibrateResponseMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CalibrateResponseMapper</span><span class="p">(</span><span class="n">CalibrateQAMapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.calibrate_response_mapper</h1><div cl
 <span class="s1">        使其更加详细、准确，且仍可以回答原问题。只输出校准后的回答，不要输出多余内容。&#39;</span>
 
 <div class="viewcode-block" id="CalibrateResponseMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span></div>
 </div>
diff --git a/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html b/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html
index 159f2855f..f3957c6d4 100644
--- a/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html
+++ b/_modules/data_juicer/ops/mapper/chinese_convert_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,6 +88,8 @@ <h1>Source code for data_juicer.ops.mapper.chinese_convert_mapper</h1><div class
 <span class="n">OPENCC_CONVERTER</span> <span class="o">=</span> <span class="kc">None</span>
 
 
+<div class="viewcode-block" id="prepare_converter">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter">[docs]</a>
 <span class="k">def</span> <span class="nf">prepare_converter</span><span class="p">(</span><span class="n">mode</span><span class="p">):</span>
     <span class="n">mode_path</span> <span class="o">=</span> <span class="n">mode</span> <span class="o">+</span> <span class="s1">&#39;.json&#39;</span>
     <span class="k">global</span> <span class="n">OPENCC_CONVERTER</span>
@@ -97,11 +99,12 @@ <h1>Source code for data_juicer.ops.mapper.chinese_convert_mapper</h1><div class
     <span class="k">if</span> <span class="ow">not</span> <span class="n">OPENCC_CONVERTER</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">mode_path</span><span class="p">):</span>
         <span class="c1"># the config is actually a config path</span>
         <span class="c1"># update and get a new converter with specified mode</span>
-        <span class="n">OPENCC_CONVERTER</span> <span class="o">=</span> <span class="n">opencc</span><span class="o">.</span><span class="n">OpenCC</span><span class="p">(</span><span class="n">mode_path</span><span class="p">)</span>
+        <span class="n">OPENCC_CONVERTER</span> <span class="o">=</span> <span class="n">opencc</span><span class="o">.</span><span class="n">OpenCC</span><span class="p">(</span><span class="n">mode_path</span><span class="p">)</span></div>
+
 
 
 <div class="viewcode-block" id="ChineseConvertMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ChineseConvertMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to convert Chinese between Traditional Chinese, Simplified Chinese</span>
@@ -110,7 +113,7 @@ <h1>Source code for data_juicer.ops.mapper.chinese_convert_mapper</h1><div class
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ChineseConvertMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;s2t&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -168,7 +171,7 @@ <h1>Source code for data_juicer.ops.mapper.chinese_convert_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ChineseConvertMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">prepare_converter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
index 7daa5a082..712d6de82 100644
--- a/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_copyright_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class
 
 
 <div class="viewcode-block" id="CleanCopyrightMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_copyright_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CleanCopyrightMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean copyright comments at the beginning of the text</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="CleanCopyrightMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -139,7 +139,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_copyright_mapper</h1><div class
         <span class="k">return</span> <span class="n">sample</span>
 
 <div class="viewcode-block" id="CleanCopyrightMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
             <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_sample</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/clean_email_mapper.html b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
index 002d4889d..479ec4eaa 100644
--- a/_modules/data_juicer/ops/mapper/clean_email_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_email_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="CleanEmailMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_email_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CleanEmailMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean email in text samples.&quot;&quot;&quot;</span>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="hi
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="CleanEmailMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">repl</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
@@ -121,7 +121,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_email_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="CleanEmailMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/clean_html_mapper.html b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
index 110e008bf..d696881c6 100644
--- a/_modules/data_juicer/ops/mapper/clean_html_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_html_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_html_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="CleanHtmlMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CleanHtmlMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean html code in text samples.&quot;&quot;&quot;</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_html_mapper</h1><div class="hig
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="CleanHtmlMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -111,7 +111,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_html_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="CleanHtmlMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
 
         <span class="k">def</span> <span class="nf">_clean_html</span><span class="p">(</span><span class="n">raw_html</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
index 89e946acd..1026e1f51 100644
--- a/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_ip_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highl
 
 
 <div class="viewcode-block" id="CleanIpMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_ip_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CleanIpMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean ipv4 and ipv6 address in text samples.&quot;&quot;&quot;</span>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highl
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="CleanIpMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">repl</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
@@ -125,7 +125,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_ip_mapper</h1><div class="highl
 
 
 <div class="viewcode-block" id="CleanIpMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/clean_links_mapper.html b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
index 96f9ae741..7ae0d75de 100644
--- a/_modules/data_juicer/ops/mapper/clean_links_mapper.html
+++ b/_modules/data_juicer/ops/mapper/clean_links_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,7 +88,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="CleanLinksMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;clean_links_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">CleanLinksMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean links like http/https/ftp in text samples.&quot;&quot;&quot;</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="hi
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="CleanLinksMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">pattern</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">repl</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.mapper.clean_links_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="CleanLinksMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
index 9306474a3..e4237ef33 100644
--- a/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
+++ b/_modules/data_juicer/ops/mapper/expand_macro_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.mapper.expand_macro_mapper</h1><div class="h
 
 
 <div class="viewcode-block" id="ExpandMacroMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;expand_macro_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExpandMacroMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to expand macro definitions in the document body of Latex</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.expand_macro_mapper</h1><div class="h
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ExpandMacroMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -142,7 +142,7 @@ <h1>Source code for data_juicer.ops.mapper.expand_macro_mapper</h1><div class="h
         <span class="k">return</span> <span class="n">macros</span>
 
 <div class="viewcode-block" id="ExpandMacroMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="n">non_arg_macros</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_build_non_arg_macros_dict</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html b/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html
index e8de9e6b0..f50b65fbb 100644
--- a/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html
+++ b/_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_attribute_mapper</h1><
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="ExtractEntityAttributeMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExtractEntityAttributeMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -122,7 +122,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_attribute_mapper</h1><
     <span class="n">DEFAULT_DEMON_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\#\#\#\s*代表性示例摘录(\d+)：\s*```\s*(.*?)```\s*(?=\#\#\#|\Z)&#39;</span>  <span class="c1"># noqa: E501</span>
 
 <div class="viewcode-block" id="ExtractEntityAttributeMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">query_entities</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[],</span>
@@ -205,7 +205,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_attribute_mapper</h1><
 
 
 <div class="viewcode-block" id="ExtractEntityAttributeMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">attribute_name</span><span class="p">):</span>
 
         <span class="n">attribute_pattern</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attr_pattern_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
@@ -258,7 +258,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_attribute_mapper</h1><
         <span class="k">return</span> <span class="n">entities</span><span class="p">,</span> <span class="n">attributes</span><span class="p">,</span> <span class="n">descs</span><span class="p">,</span> <span class="n">demo_lists</span>
 
 <div class="viewcode-block" id="ExtractEntityAttributeMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="n">res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_process_single_text</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">],</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html b/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html
index adf84edbd..c77c0f4f7 100644
--- a/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html
+++ b/_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_relation_mapper</h1><d
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="ExtractEntityRelationMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExtractEntityRelationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -227,7 +227,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_relation_mapper</h1><d
     <span class="n">DEFAULT_RELATION_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\(&quot;relationship&quot;(.*?)\)&#39;</span>
 
 <div class="viewcode-block" id="ExtractEntityRelationMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">entity_types</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -313,7 +313,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_relation_mapper</h1><d
 
 
 <div class="viewcode-block" id="ExtractEntityRelationMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">entities</span><span class="p">,</span> <span class="n">relations</span> <span class="o">=</span> <span class="p">[],</span> <span class="p">[]</span>
 
@@ -368,13 +368,13 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_relation_mapper</h1><d
 
 
 <div class="viewcode-block" id="ExtractEntityRelationMapper.add_message">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message">[docs]</a>
     <span class="k">def</span> <span class="nf">add_message</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">messages</span><span class="p">,</span> <span class="n">role</span><span class="p">,</span> <span class="n">content</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">messages</span> <span class="o">+</span> <span class="p">[{</span><span class="s1">&#39;role&#39;</span><span class="p">:</span> <span class="n">role</span><span class="p">,</span> <span class="s1">&#39;content&#39;</span><span class="p">:</span> <span class="n">content</span><span class="p">}]</span></div>
 
 
 <div class="viewcode-block" id="ExtractEntityRelationMapper.light_rag_extraction">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction">[docs]</a>
     <span class="k">def</span> <span class="nf">light_rag_extraction</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">messages</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
@@ -401,7 +401,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_entity_relation_mapper</h1><d
 
 
 <div class="viewcode-block" id="ExtractEntityRelationMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="n">input_prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
diff --git a/_modules/data_juicer/ops/mapper/extract_event_mapper.html b/_modules/data_juicer/ops/mapper/extract_event_mapper.html
index 639536d15..b2e33ecd8 100644
--- a/_modules/data_juicer/ops/mapper/extract_event_mapper.html
+++ b/_modules/data_juicer/ops/mapper/extract_event_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_event_mapper</h1><div class="
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="ExtractEventMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExtractEventMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_event_mapper</h1><div class="
 <span class="s2">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="ExtractEventMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -190,7 +190,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_event_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="ExtractEventMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
@@ -232,7 +232,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_event_mapper</h1><div class="
         <span class="k">return</span> <span class="n">event_list</span><span class="p">,</span> <span class="n">character_list</span>
 
 <div class="viewcode-block" id="ExtractEventMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="n">sample_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
diff --git a/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html b/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html
index 9fcf5ed29..adbb53fbc 100644
--- a/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html
+++ b/_modules/data_juicer/ops/mapper/extract_keyword_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_keyword_mapper</h1><div class
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="ExtractKeywordMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExtractKeywordMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -181,7 +181,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_keyword_mapper</h1><div class
     <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\(&quot;content_keywords&quot;(.*?)\)&#39;</span>
 
 <div class="viewcode-block" id="ExtractKeywordMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -236,7 +236,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_keyword_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ExtractKeywordMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">keywords</span> <span class="o">=</span> <span class="p">[]</span>
 
@@ -251,7 +251,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_keyword_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ExtractKeywordMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html b/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html
index a7ae213dc..da4d6133c 100644
--- a/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html
+++ b/_modules/data_juicer/ops/mapper/extract_nickname_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_nickname_mapper</h1><div clas
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="ExtractNicknameMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExtractNicknameMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -129,7 +129,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_nickname_mapper</h1><div clas
 <span class="s2">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="ExtractNicknameMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -183,7 +183,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_nickname_mapper</h1><div clas
 
 
 <div class="viewcode-block" id="ExtractNicknameMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
@@ -218,7 +218,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_nickname_mapper</h1><div clas
 
 
 <div class="viewcode-block" id="ExtractNicknameMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html b/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html
index 850b8de20..948922195 100644
--- a/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html
+++ b/_modules/data_juicer/ops/mapper/extract_support_text_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_support_text_mapper</h1><div
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="ExtractSupportTextMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ExtractSupportTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -125,7 +125,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_support_text_mapper</h1><div
                               <span class="s1">&#39;### 原文摘录：</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
 
 <div class="viewcode-block" id="ExtractSupportTextMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -182,7 +182,7 @@ <h1>Source code for data_juicer.ops.mapper.extract_support_text_mapper</h1><div
 
 
 <div class="viewcode-block" id="ExtractSupportTextMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
index 8a7e722fe..839fe920e 100644
--- a/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
+++ b/_modules/data_juicer/ops/mapper/fix_unicode_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.mapper.fix_unicode_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="FixUnicodeMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">FixUnicodeMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to fix unicode errors in text samples.&quot;&quot;&quot;</span>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.ops.mapper.fix_unicode_mapper</h1><div class="hi
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="FixUnicodeMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">normalization</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -119,7 +119,7 @@ <h1>Source code for data_juicer.ops.mapper.fix_unicode_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="FixUnicodeMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
             <span class="n">ftfy</span><span class="o">.</span><span class="n">fix_text</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">normalization</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">normalization</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html b/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html
index ae72b5c82..abca25d57 100644
--- a/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html
+++ b/_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_examples_mapper</h1>
 
 <span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
 <div class="viewcode-block" id="GenerateQAFromExamplesMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">GenerateQAFromExamplesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_examples_mapper</h1>
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="GenerateQAFromExamplesMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Qwen/Qwen2.5-7B-Instruct&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -270,7 +270,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_examples_mapper</h1>
         <span class="k">return</span> <span class="n">qa_pairs</span>
 
 <div class="viewcode-block" id="GenerateQAFromExamplesMapper.build_input">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input">[docs]</a>
     <span class="k">def</span> <span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">qa_examples</span><span class="p">):</span>
 
         <span class="k">def</span> <span class="nf">format_qa_pairs</span><span class="p">(</span><span class="n">qa_example</span><span class="p">):</span>
@@ -288,7 +288,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_examples_mapper</h1>
 
 
 <div class="viewcode-block" id="GenerateQAFromExamplesMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
         <span class="n">output_qa_pairs</span> <span class="o">=</span> <span class="p">[]</span>
@@ -300,7 +300,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_examples_mapper</h1>
 
 
 <div class="viewcode-block" id="GenerateQAFromExamplesMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
 
diff --git a/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html b/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html
index de95f6621..54ab750b8 100644
--- a/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html
+++ b/_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_text_mapper</h1><div
 
 <span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
 <div class="viewcode-block" id="GenerateQAFromTextMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">GenerateQAFromTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -115,7 +115,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_text_mapper</h1><div
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="GenerateQAFromTextMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;alibaba-pai/pai-qwen1_5-7b-doc2qa&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -185,7 +185,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_text_mapper</h1><div
 
 
 <div class="viewcode-block" id="GenerateQAFromTextMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
         <span class="n">qa_list</span> <span class="o">=</span> <span class="p">[]</span>
@@ -197,7 +197,7 @@ <h1>Source code for data_juicer.ops.mapper.generate_qa_from_text_mapper</h1><div
 
 
 <div class="viewcode-block" id="GenerateQAFromTextMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
 
diff --git a/_modules/data_juicer/ops/mapper/image_blur_mapper.html b/_modules/data_juicer/ops/mapper/image_blur_mapper.html
index 075eb6e0e..9e31343bc 100644
--- a/_modules/data_juicer/ops/mapper/image_blur_mapper.html
+++ b/_modules/data_juicer/ops/mapper/image_blur_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.image_blur_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageBlurMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageBlurMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.mapper.image_blur_mapper</h1><div class="hig
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="ImageBlurMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">p</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
                  <span class="n">blur_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">,</span>
@@ -138,7 +138,7 @@ <h1>Source code for data_juicer.ops.mapper.image_blur_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="ImageBlurMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># there is no image in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html b/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html
index 1361d327f..1cbd4179a 100644
--- a/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html
+++ b/_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -104,6 +104,8 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</h
 <span class="p">}</span>
 
 
+<div class="viewcode-block" id="call_gpt_vision_api">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api">[docs]</a>
 <span class="k">def</span> <span class="nf">call_gpt_vision_api</span><span class="p">(</span><span class="n">api_key</span><span class="p">,</span>
                         <span class="n">system_prompt</span><span class="p">,</span>
                         <span class="n">user_prompt</span><span class="p">,</span>
@@ -170,11 +172,12 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</h
         <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;An unexpected error occurred: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
 
     <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;API request failed, return None.&#39;</span><span class="p">)</span>
-    <span class="k">return</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="kc">None</span></div>
+
 
 
 <div class="viewcode-block" id="ImageCaptioningFromGPT4VMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_captioning_from_gpt4v_mapper&#39;</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;image_captioning_from_gpt4v_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageCaptioningFromGPT4VMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -184,7 +187,7 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</h
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageCaptioningFromGPT4VMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;description&#39;</span><span class="p">,</span>
                  <span class="n">api_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
@@ -333,7 +336,7 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</h
         <span class="k">return</span> <span class="p">[</span><span class="n">generated_sample</span><span class="p">]</span>
 
 <div class="viewcode-block" id="ImageCaptioningFromGPT4VMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
         <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
diff --git a/_modules/data_juicer/ops/mapper/image_captioning_mapper.html b/_modules/data_juicer/ops/mapper/image_captioning_mapper.html
index aa885c1e0..d4afe2704 100644
--- a/_modules/data_juicer/ops/mapper/image_captioning_mapper.html
+++ b/_modules/data_juicer/ops/mapper/image_captioning_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -102,7 +102,7 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_mapper</h1><div clas
 
 
 <div class="viewcode-block" id="ImageCaptioningMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageCaptioningMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -113,7 +113,7 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_mapper</h1><div clas
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageCaptioningMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_img2seq</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip2-opt-2.7b&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -356,7 +356,7 @@ <h1>Source code for data_juicer.ops.mapper.image_captioning_mapper</h1><div clas
         <span class="k">return</span> <span class="n">new_generated_text_per_chunk</span>
 
 <div class="viewcode-block" id="ImageCaptioningMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Note:</span>
diff --git a/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html b/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html
index d06b1e58d..7476728b2 100644
--- a/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html
+++ b/_modules/data_juicer/ops/mapper/image_diffusion_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.mapper.image_diffusion_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ImageDiffusionMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ImageDiffusionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -110,7 +110,7 @@ <h1>Source code for data_juicer.ops.mapper.image_diffusion_mapper</h1><div class
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ImageDiffusionMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_diffusion</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;CompVis/stable-diffusion-v1-4&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -291,7 +291,7 @@ <h1>Source code for data_juicer.ops.mapper.image_diffusion_mapper</h1><div class
         <span class="k">return</span> <span class="n">generated_samples</span>
 
 <div class="viewcode-block" id="ImageDiffusionMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">            Note:</span>
diff --git a/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html b/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html
index a3f338eff..8357996ae 100644
--- a/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html
+++ b/_modules/data_juicer/ops/mapper/image_face_blur_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.image_face_blur_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ImageFaceBlurMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_IMAGES</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -115,7 +115,7 @@ <h1>Source code for data_juicer.ops.mapper.image_face_blur_mapper</h1><div class
     <span class="p">}</span>
 
 <div class="viewcode-block" id="ImageFaceBlurMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">blur_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">,</span>
@@ -166,7 +166,7 @@ <h1>Source code for data_juicer.ops.mapper.image_face_blur_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ImageFaceBlurMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># there is no image in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">image_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">image_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/image_tagging_mapper.html b/_modules/data_juicer/ops/mapper/image_tagging_mapper.html
index 9071c03f0..6a04e7939 100644
--- a/_modules/data_juicer/ops/mapper/image_tagging_mapper.html
+++ b/_modules/data_juicer/ops/mapper/image_tagging_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.image_tagging_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="ImageTaggingMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper">[docs]</a>
 <span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -108,7 +108,7 @@ <h1>Source code for data_juicer.ops.mapper.image_tagging_mapper</h1><div class="
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="ImageTaggingMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">tag_field_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">Fields</span><span class="o">.</span><span class="n">image_tags</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.mapper.image_tagging_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="ImageTaggingMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s generated already</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html b/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
index 505a4d94d..2b6039aba 100644
--- a/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
+++ b/_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpaug_en_mapper</h1><div class="high
 
 
 <div class="viewcode-block" id="NlpaugEnMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">NlpaugEnMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to simply augment samples in English based on nlpaug library.&quot;&quot;&quot;</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpaug_en_mapper</h1><div class="high
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="NlpaugEnMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">sequential</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">aug_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
@@ -209,7 +209,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpaug_en_mapper</h1><div class="high
 
 
 <div class="viewcode-block" id="NlpaugEnMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># no augmentation methods are opened</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html b/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
index ebde25093..3cd9ac001 100644
--- a/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
+++ b/_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpcda_zh_mapper</h1><div class="high
 
 
 <div class="viewcode-block" id="NlpcdaZhMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">NlpcdaZhMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to simply augment samples in Chinese based on nlpcda library.&quot;&quot;&quot;</span>
@@ -101,7 +101,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpcda_zh_mapper</h1><div class="high
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="NlpcdaZhMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">sequential</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">aug_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
@@ -214,7 +214,7 @@ <h1>Source code for data_juicer.ops.mapper.nlpcda_zh_mapper</h1><div class="high
 
 
 <div class="viewcode-block" id="NlpcdaZhMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># no augmentation methods are opened</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">aug_pipeline</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html b/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html
index 510f9a0fe..a76841a1b 100644
--- a/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html
+++ b/_modules/data_juicer/ops/mapper/optimize_qa_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_qa_mapper</h1><div class="hi
 
 <span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
 <div class="viewcode-block" id="OptimizeQAMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">OptimizeQAMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -115,7 +115,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_qa_mapper</h1><div class="hi
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="OptimizeQAMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Qwen/Qwen2.5-7B-Instruct&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -183,7 +183,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_qa_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="OptimizeQAMapper.build_input">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.build_input">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input">[docs]</a>
     <span class="k">def</span> <span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">qa_pair</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qa_pair_template</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span>
                                                <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">response_key</span><span class="p">])</span>
@@ -192,7 +192,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_qa_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="OptimizeQAMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
         <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
@@ -203,7 +203,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_qa_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="OptimizeQAMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">model</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_cuda</span><span class="p">())</span>
 
diff --git a/_modules/data_juicer/ops/mapper/optimize_query_mapper.html b/_modules/data_juicer/ops/mapper/optimize_query_mapper.html
index 38fadf6cb..f6bbd7436 100644
--- a/_modules/data_juicer/ops/mapper/optimize_query_mapper.html
+++ b/_modules/data_juicer/ops/mapper/optimize_query_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_query_mapper</h1><div class=
 
 <span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
 <div class="viewcode-block" id="OptimizeQueryMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">OptimizeQueryMapper</span><span class="p">(</span><span class="n">OptimizeQAMapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_query_mapper</h1><div class=
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="OptimizeQueryMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">(),</span> <span class="kc">None</span></div>
 </div>
diff --git a/_modules/data_juicer/ops/mapper/optimize_response_mapper.html b/_modules/data_juicer/ops/mapper/optimize_response_mapper.html
index fda4a66eb..409553416 100644
--- a/_modules/data_juicer/ops/mapper/optimize_response_mapper.html
+++ b/_modules/data_juicer/ops/mapper/optimize_response_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_response_mapper</h1><div cla
 
 <span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
 <div class="viewcode-block" id="OptimizeResponseMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">OptimizeResponseMapper</span><span class="p">(</span><span class="n">OptimizeQAMapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.mapper.optimize_response_mapper</h1><div cla
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="OptimizeResponseMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="n">raw_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span></div>
 </div>
diff --git a/_modules/data_juicer/ops/mapper/pair_preference_mapper.html b/_modules/data_juicer/ops/mapper/pair_preference_mapper.html
index e0b1cbde5..73cce96bc 100644
--- a/_modules/data_juicer/ops/mapper/pair_preference_mapper.html
+++ b/_modules/data_juicer/ops/mapper/pair_preference_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.mapper.pair_preference_mapper</h1><div class
 
 <span class="c1"># TODO: Extend LLM-based OPs into API-based implementation.</span>
 <div class="viewcode-block" id="PairPreferenceMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">PairPreferenceMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -117,7 +117,7 @@ <h1>Source code for data_juicer.ops.mapper.pair_preference_mapper</h1><div class
     <span class="n">DEFAULT_OUTPUT_PATTERN</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;.*?【回答】\s*(.*?)\s*【原因】\s*(.*)&#39;</span>
 
 <div class="viewcode-block" id="PairPreferenceMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="p">,</span>
@@ -174,7 +174,7 @@ <h1>Source code for data_juicer.ops.mapper.pair_preference_mapper</h1><div class
 
 
 <div class="viewcode-block" id="PairPreferenceMapper.build_input">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.build_input">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input">[docs]</a>
     <span class="k">def</span> <span class="nf">build_input</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="n">mapping</span> <span class="o">=</span> <span class="p">{</span>
             <span class="s1">&#39;query&#39;</span><span class="p">:</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">query_key</span><span class="p">],</span>
@@ -185,7 +185,7 @@ <h1>Source code for data_juicer.ops.mapper.pair_preference_mapper</h1><div class
 
 
 <div class="viewcode-block" id="PairPreferenceMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
         <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
@@ -196,7 +196,7 @@ <h1>Source code for data_juicer.ops.mapper.pair_preference_mapper</h1><div class
 
 
 <div class="viewcode-block" id="PairPreferenceMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
index b2ab7cc80..af052eee5 100644
--- a/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
+++ b/_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1>
 
 
 <div class="viewcode-block" id="PunctuationNormalizationMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;punctuation_normalization_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">PunctuationNormalizationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to normalize unicode punctuations to English punctuations in text</span>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1>
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="PunctuationNormalizationMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -142,7 +142,7 @@ <h1>Source code for data_juicer.ops.mapper.punctuation_normalization_mapper</h1>
 
 
 <div class="viewcode-block" id="PunctuationNormalizationMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
             <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">punctuation_unicode</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">c</span><span class="p">,</span> <span class="n">c</span><span class="p">)</span> <span class="k">for</span> <span class="n">c</span> <span class="ow">in</span> <span class="n">text</span><span class="p">])</span>
diff --git a/_modules/data_juicer/ops/mapper/python_file_mapper.html b/_modules/data_juicer/ops/mapper/python_file_mapper.html
index bdd81e375..d5f875097 100644
--- a/_modules/data_juicer/ops/mapper/python_file_mapper.html
+++ b/_modules/data_juicer/ops/mapper/python_file_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,13 +87,13 @@ <h1>Source code for data_juicer.ops.mapper.python_file_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="PythonFileMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">PythonFileMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper for executing Python function defined in a file.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="PythonFileMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">file_path</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">function_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;process_single&#39;</span><span class="p">,</span>
@@ -159,7 +159,7 @@ <h1>Source code for data_juicer.ops.mapper.python_file_mapper</h1><div class="hi
         <span class="k">return</span> <span class="n">func</span>
 
 <div class="viewcode-block" id="PythonFileMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Invoke the loaded function with the provided sample.&quot;&quot;&quot;</span>
         <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">func</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
@@ -173,7 +173,7 @@ <h1>Source code for data_juicer.ops.mapper.python_file_mapper</h1><div class="hi
 
 
 <div class="viewcode-block" id="PythonFileMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;Invoke the loaded function with the provided samples.&quot;&quot;&quot;</span>
         <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">func</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/python_lambda_mapper.html b/_modules/data_juicer/ops/mapper/python_lambda_mapper.html
index 1b2453b97..e0c436376 100644
--- a/_modules/data_juicer/ops/mapper/python_lambda_mapper.html
+++ b/_modules/data_juicer/ops/mapper/python_lambda_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,13 +85,13 @@ <h1>Source code for data_juicer.ops.mapper.python_lambda_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="PythonLambdaMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">PythonLambdaMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper for executing Python lambda function on data samples.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="PythonLambdaMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lambda_str</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">batched</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -136,7 +136,7 @@ <h1>Source code for data_juicer.ops.mapper.python_lambda_mapper</h1><div class="
             <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Invalid lambda function: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
 
 <div class="viewcode-block" id="PythonLambdaMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># Process the input through the lambda function and return the result</span>
         <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lambda_func</span><span class="p">(</span><span class="n">sample</span><span class="p">)</span>
@@ -150,7 +150,7 @@ <h1>Source code for data_juicer.ops.mapper.python_lambda_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="PythonLambdaMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># Process the input through the lambda function and return the result</span>
         <span class="n">result</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lambda_func</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/relation_identity_mapper.html b/_modules/data_juicer/ops/mapper/relation_identity_mapper.html
index 8993a5c0c..ce7b49825 100644
--- a/_modules/data_juicer/ops/mapper/relation_identity_mapper.html
+++ b/_modules/data_juicer/ops/mapper/relation_identity_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.relation_identity_mapper</h1><div cla
 
 <span class="c1"># TODO: LLM-based inference.</span>
 <div class="viewcode-block" id="RelationIdentityMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RelationIdentityMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -118,7 +118,7 @@ <h1>Source code for data_juicer.ops.mapper.relation_identity_mapper</h1><div cla
 <span class="s2">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RelationIdentityMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">api_model</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gpt-4o&#39;</span><span class="p">,</span>
                  <span class="n">source_entity</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -197,7 +197,7 @@ <h1>Source code for data_juicer.ops.mapper.relation_identity_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RelationIdentityMapper.parse_output">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.parse_output">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output">[docs]</a>
     <span class="k">def</span> <span class="nf">parse_output</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">raw_output</span><span class="p">):</span>
         <span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">output_pattern</span><span class="p">,</span> <span class="n">re</span><span class="o">.</span><span class="n">VERBOSE</span> <span class="o">|</span> <span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
         <span class="n">matches</span> <span class="o">=</span> <span class="n">pattern</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">raw_output</span><span class="p">)</span>
@@ -212,7 +212,7 @@ <h1>Source code for data_juicer.ops.mapper.relation_identity_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RelationIdentityMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="n">client</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">)</span>
 
diff --git a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
index ff2739611..e1e8e0aff 100644
--- a/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div c
 
 
 <div class="viewcode-block" id="RemoveBibliographyMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_bibliography_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveBibliographyMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove bibliography at the end of documents in Latex</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div c
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveBibliographyMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -114,7 +114,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_bibliography_mapper</h1><div c
 
 
 <div class="viewcode-block" id="RemoveBibliographyMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span>
             <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
index 2ec9283c6..a4c5329b4 100644
--- a/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_comments_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,7 +89,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class
 
 
 <div class="viewcode-block" id="RemoveCommentsMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_comments_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveCommentsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -101,7 +101,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveCommentsMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">doc_type</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;tex&#39;</span><span class="p">,</span>
                  <span class="n">inline</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
@@ -124,7 +124,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_comments_mapper</h1><div class
 
 
 <div class="viewcode-block" id="RemoveCommentsMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># TODO: remove different comments by sample type</span>
 
diff --git a/_modules/data_juicer/ops/mapper/remove_header_mapper.html b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
index 61956ae8e..183b0c06b 100644
--- a/_modules/data_juicer/ops/mapper/remove_header_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_header_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,7 +87,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="RemoveHeaderMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_header_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveHeaderMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove headers at the beginning of documents in Latex</span>
@@ -96,7 +96,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveHeaderMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">drop_no_head</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -121,7 +121,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_header_mapper</h1><div class="
 
 
 <div class="viewcode-block" id="RemoveHeaderMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
index ed775eb13..c9c872e6a 100644
--- a/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_long_words_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,7 +89,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RemoveLongWordsMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_long_words_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveLongWordsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove long words within a specific range.&quot;&quot;&quot;</span>
@@ -97,7 +97,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div cla
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveLongWordsMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -119,7 +119,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RemoveLongWordsMapper.should_keep_long_word">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">[docs]</a>
     <span class="k">def</span> <span class="nf">should_keep_long_word</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">min_len</span> <span class="o">&lt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">word</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span><span class="p">:</span>
             <span class="k">return</span> <span class="kc">True</span>
@@ -131,7 +131,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_long_words_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RemoveLongWordsMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="n">sentences</span> <span class="o">=</span> <span class="n">split_on_newline_tab_whitespace</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html b/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html
index 943bc2310..1bb4093c6 100644
--- a/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -83,7 +83,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_non_chinese_character_mapper</
 
 
 <div class="viewcode-block" id="RemoveNonChineseCharacterlMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_non_chinese_character_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveNonChineseCharacterlMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove non chinese Character in text samples.&quot;&quot;&quot;</span>
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_non_chinese_character_mapper</
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveNonChineseCharacterlMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">keep_alphabet</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
                  <span class="n">keep_number</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
@@ -120,7 +120,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_non_chinese_character_mapper</
 
 
 <div class="viewcode-block" id="RemoveNonChineseCharacterlMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">if</span> <span class="ow">not</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html b/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html
index 092f3c25d..ad11e32f9 100644
--- a/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -82,16 +82,19 @@ <h1>Source code for data_juicer.ops.mapper.remove_repeat_sentences_mapper</h1><d
 <span class="kn">from</span> <span class="nn">..base_op</span> <span class="kn">import</span> <span class="n">OPERATORS</span><span class="p">,</span> <span class="n">Mapper</span>
 
 
+<div class="viewcode-block" id="split_sentence">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence">[docs]</a>
 <span class="k">def</span> <span class="nf">split_sentence</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
     <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;([.。！!？\?])([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
     <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;(\.</span><span class="si">{6}</span><span class="s1">)([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
     <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;(\…</span><span class="si">{2}</span><span class="s1">)([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
     <span class="n">text</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="s1">&#39;([.。!！？\?\.</span><span class="si">{6}</span><span class="s1">\…</span><span class="si">{2}</span><span class="s1">][’”])([^’”])&#39;</span><span class="p">,</span> <span class="sa">r</span><span class="s1">&#39;\1\n\2&#39;</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>  <span class="c1"># noqa</span>
-    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
 
 
 <div class="viewcode-block" id="RemoveRepeatSentencesMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_repeat_sentences_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveRepeatSentencesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove repeat sentences in text samples.&quot;&quot;&quot;</span>
@@ -99,7 +102,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_repeat_sentences_mapper</h1><d
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveRepeatSentencesMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lowercase</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
                  <span class="n">ignore_special_character</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
@@ -130,7 +133,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_repeat_sentences_mapper</h1><d
 
 
 <div class="viewcode-block" id="RemoveRepeatSentencesMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="n">lines</span> <span class="o">=</span> <span class="p">[</span><span class="n">e</span> <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">text</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">)]</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
index 8d3d71a37..eb7566720 100644
--- a/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div
 
 
 <div class="viewcode-block" id="RemoveSpecificCharsMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_specific_chars_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveSpecificCharsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to clean specific chars in text samples.&quot;&quot;&quot;</span>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveSpecificCharsMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">chars_to_remove</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;◆●■►▼▲▴∆▻▷❖♡□&#39;</span><span class="p">,</span>
                  <span class="o">*</span><span class="n">args</span><span class="p">,</span>
@@ -115,7 +115,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_specific_chars_mapper</h1><div
 
 
 <div class="viewcode-block" id="RemoveSpecificCharsMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">samples</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
index 2cc61720f..22c09d98c 100644
--- a/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_table_text_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RemoveTableTextMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;remove_table_text_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveTableTextMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div cla
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveTableTextMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_col</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">20</span><span class="p">)]</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
                  <span class="n">max_col</span><span class="p">:</span> <span class="n">Annotated</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">20</span><span class="p">)]</span> <span class="o">=</span> <span class="mi">20</span><span class="p">,</span>
@@ -119,7 +119,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_table_text_mapper</h1><div cla
 
 
 <div class="viewcode-block" id="RemoveTableTextMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">min_col</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_col</span><span class="p">):</span>
diff --git a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
index 33c3ae083..ce3de11fe 100644
--- a/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
+++ b/_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -90,7 +90,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substring
 
 
 <div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RemoveWordsWithIncorrectSubstringsMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to remove words with incorrect substrings.&quot;&quot;&quot;</span>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substring
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span>
                  <span class="n">tokenization</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -126,7 +126,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substring
 
 
 <div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">[docs]</a>
     <span class="k">def</span> <span class="nf">should_keep_word_with_incorrect_substrings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">word</span><span class="p">,</span> <span class="n">substrings</span><span class="p">):</span>
         <span class="n">word</span> <span class="o">=</span> <span class="n">strip</span><span class="p">(</span><span class="n">word</span><span class="p">,</span> <span class="n">SPECIAL_CHARACTERS</span><span class="p">)</span>
         <span class="n">should_keep</span> <span class="o">=</span> <span class="nb">all</span><span class="p">([(</span><span class="n">i_substr</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">word</span><span class="p">)</span> <span class="k">for</span> <span class="n">i_substr</span> <span class="ow">in</span> <span class="n">substrings</span><span class="p">])</span>
@@ -134,7 +134,7 @@ <h1>Source code for data_juicer.ops.mapper.remove_words_with_incorrect_substring
 
 
 <div class="viewcode-block" id="RemoveWordsWithIncorrectSubstringsMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenization</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/mapper/replace_content_mapper.html b/_modules/data_juicer/ops/mapper/replace_content_mapper.html
index c782a8ac1..d0160e214 100644
--- a/_modules/data_juicer/ops/mapper/replace_content_mapper.html
+++ b/_modules/data_juicer/ops/mapper/replace_content_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,7 +85,7 @@ <h1>Source code for data_juicer.ops.mapper.replace_content_mapper</h1><div class
 
 
 <div class="viewcode-block" id="ReplaceContentMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;replace_content_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">ReplaceContentMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to replace all content in the text that matches</span>
@@ -95,7 +95,7 @@ <h1>Source code for data_juicer.ops.mapper.replace_content_mapper</h1><div class
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="ReplaceContentMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">pattern</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">repl</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
@@ -129,7 +129,7 @@ <h1>Source code for data_juicer.ops.mapper.replace_content_mapper</h1><div class
         <span class="k">return</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">flags</span><span class="o">=</span><span class="n">re</span><span class="o">.</span><span class="n">DOTALL</span><span class="p">)</span>
 
 <div class="viewcode-block" id="ReplaceContentMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">samples</span>
diff --git a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
index 98d6471d8..d7a4adf64 100644
--- a/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
+++ b/_modules/data_juicer/ops/mapper/sentence_split_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class=
 
 
 <div class="viewcode-block" id="SentenceSplitMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">SentenceSplitMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to split text samples to sentences.&quot;&quot;&quot;</span>
@@ -94,7 +94,7 @@ <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class=
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="SentenceSplitMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">lang</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;en&#39;</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -109,7 +109,7 @@ <h1>Source code for data_juicer.ops.mapper.sentence_split_mapper</h1><div class=
 
 
 <div class="viewcode-block" id="SentenceSplitMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
 
         <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
diff --git a/_modules/data_juicer/ops/mapper/text_chunk_mapper.html b/_modules/data_juicer/ops/mapper/text_chunk_mapper.html
index ea4d5696e..fafae053b 100644
--- a/_modules/data_juicer/ops/mapper/text_chunk_mapper.html
+++ b/_modules/data_juicer/ops/mapper/text_chunk_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,7 +91,7 @@ <h1>Source code for data_juicer.ops.mapper.text_chunk_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="TextChunkMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">TextChunkMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Split input text to chunks.&quot;&quot;&quot;</span>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.text_chunk_mapper</h1><div class="hig
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="TextChunkMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">max_len</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">split_pattern</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;\n\n&#39;</span><span class="p">,</span>
@@ -147,7 +147,7 @@ <h1>Source code for data_juicer.ops.mapper.text_chunk_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="TextChunkMapper.recursively_chunk">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk">[docs]</a>
     <span class="k">def</span> <span class="nf">recursively_chunk</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text</span><span class="p">):</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
             <span class="n">_</span><span class="p">,</span> <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">get_model</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_key</span><span class="p">)</span>
@@ -178,7 +178,7 @@ <h1>Source code for data_juicer.ops.mapper.text_chunk_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="TextChunkMapper.get_text_chunks">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks">[docs]</a>
     <span class="k">def</span> <span class="nf">get_text_chunks</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">text</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">split_pattern</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_len</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
@@ -206,7 +206,7 @@ <h1>Source code for data_juicer.ops.mapper.text_chunk_mapper</h1><div class="hig
 
 
 <div class="viewcode-block" id="TextChunkMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
 
         <span class="n">sample_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">])</span>
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html
index 62923d8db..6530e3ada 100644
--- a/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -92,7 +92,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_audio_mapper</h
 
 
 <div class="viewcode-block" id="VideoCaptioningFromAudioMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoCaptioningFromAudioMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to caption a video according to its audio streams based on</span>
@@ -103,7 +103,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_audio_mapper</h
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromAudioMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -202,7 +202,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_audio_mapper</h
         <span class="k">return</span> <span class="p">[</span><span class="n">captioned_sample</span><span class="p">]</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromAudioMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
         <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html
index eb33ec11e..d4bbcbfc6 100644
--- a/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -107,7 +107,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_frames_mapper</
 
 
 <div class="viewcode-block" id="VideoCaptioningFromFramesMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoCaptioningFromFramesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -119,7 +119,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_frames_mapper</
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromFramesMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">hf_img2seq</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;Salesforce/blip2-opt-2.7b&#39;</span><span class="p">,</span>
@@ -410,7 +410,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_frames_mapper</
         <span class="k">return</span> <span class="n">generated_text_per_chunk</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromFramesMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        :param samples:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html
index 487fbe864..c8ed5ab26 100644
--- a/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_summarizer_mapp
 
 
 <div class="viewcode-block" id="VideoCaptioningFromSummarizerMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoCaptioningFromSummarizerMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -105,7 +105,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_summarizer_mapp
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromSummarizerMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_summarizer</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -319,7 +319,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_summarizer_mapp
         <span class="k">return</span> <span class="p">[</span><span class="n">captioned_sample</span><span class="p">]</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromSummarizerMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
         <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
diff --git a/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html b/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html
index 759503a55..506981424 100644
--- a/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -107,7 +107,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_video_mapper</h
 
 
 <div class="viewcode-block" id="VideoCaptioningFromVideoMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoCaptioningFromVideoMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -118,7 +118,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_video_mapper</h
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromVideoMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">hf_video_blip</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;kpyu/video-blip-opt-2.7b-ego4d&#39;</span><span class="p">,</span>
@@ -417,7 +417,7 @@ <h1>Source code for data_juicer.ops.mapper.video_captioning_from_video_mapper</h
         <span class="k">return</span> <span class="n">generated_text_per_chunk</span>
 
 <div class="viewcode-block" id="VideoCaptioningFromVideoMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        :param samples:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html b/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html
index c9490edf1..52cc73de1 100644
--- a/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -98,7 +98,7 @@ <h1>Source code for data_juicer.ops.mapper.video_extract_frames_mapper</h1><div
 
 
 <div class="viewcode-block" id="VideoExtractFramesMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoExtractFramesMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -117,7 +117,7 @@ <h1>Source code for data_juicer.ops.mapper.video_extract_frames_mapper</h1><div
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoExtractFramesMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
@@ -186,7 +186,7 @@ <h1>Source code for data_juicer.ops.mapper.video_extract_frames_mapper</h1><div
                         <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">original_filename</span><span class="si">}</span><span class="s1">__dj_hash_#</span><span class="si">{</span><span class="n">hash_val</span><span class="si">}</span><span class="s1">#&#39;</span><span class="p">)</span>
 
 <div class="viewcode-block" id="VideoExtractFramesMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s generated already</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">frame_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html b/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html
index 733d48b52..66eb17f20 100644
--- a/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_face_blur_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.video_face_blur_mapper</h1><div class
 
 
 <div class="viewcode-block" id="VideoFaceBlurMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper">[docs]</a>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -115,7 +115,7 @@ <h1>Source code for data_juicer.ops.mapper.video_face_blur_mapper</h1><div class
     <span class="p">}</span>
 
 <div class="viewcode-block" id="VideoFaceBlurMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">cv_classifier</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">blur_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;gaussian&#39;</span><span class="p">,</span>
@@ -166,7 +166,7 @@ <h1>Source code for data_juicer.ops.mapper.video_face_blur_mapper</h1><div class
 
 
 <div class="viewcode-block" id="VideoFaceBlurMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># there is no video in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html b/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html
index b68f612c0..8e7e0b86f 100644
--- a/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,14 +93,14 @@ <h1>Source code for data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</h1><div
 
 
 <div class="viewcode-block" id="VideoFFmpegWrappedMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoFFmpegWrappedMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Simple wrapper for FFmpeg video filters.</span>
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoFFmpegWrappedMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">filter_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -133,7 +133,7 @@ <h1>Source code for data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</h1><div
 
 
 <div class="viewcode-block" id="VideoFFmpegWrappedMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># there is no video in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html b/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html
index 6f62e6815..1d6c9a214 100644
--- a/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.mapper.video_remove_watermark_mapper</h1><di
 
 
 <div class="viewcode-block" id="VideoRemoveWatermarkMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoRemoveWatermarkMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -113,7 +113,7 @@ <h1>Source code for data_juicer.ops.mapper.video_remove_watermark_mapper</h1><di
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoRemoveWatermarkMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">roi_strings</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;0,0,0.1,0.1&#39;</span><span class="p">],</span>
                  <span class="n">roi_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ratio&#39;</span><span class="p">,</span>
@@ -286,7 +286,7 @@ <h1>Source code for data_juicer.ops.mapper.video_remove_watermark_mapper</h1><di
         <span class="k">return</span> <span class="n">av</span><span class="o">.</span><span class="n">VideoFrame</span><span class="o">.</span><span class="n">from_ndarray</span><span class="p">(</span><span class="n">new_np_frame</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;bgr24&#39;</span><span class="p">)</span>
 
 <div class="viewcode-block" id="VideoRemoveWatermarkMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># there is no video in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html b/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html
index f4b8e4e4c..aac4fedf6 100644
--- a/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -95,6 +95,8 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</h1>
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_resize_aspect_ratio_mapper&#39;</span>
 
 
+<div class="viewcode-block" id="rescale">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale">[docs]</a>
 <span class="k">def</span> <span class="nf">rescale</span><span class="p">(</span><span class="n">width</span><span class="p">,</span> <span class="n">height</span><span class="p">,</span> <span class="n">ori_ratio</span><span class="p">,</span> <span class="n">min_ratio</span><span class="p">,</span> <span class="n">max_ratio</span><span class="p">,</span> <span class="n">strategy</span><span class="p">):</span>
 
     <span class="n">scaled_width</span> <span class="o">=</span> <span class="n">width</span>
@@ -129,11 +131,12 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</h1>
     <span class="n">scaled_width</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="n">scaled_width</span><span class="p">)</span>
     <span class="n">scaled_height</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="n">scaled_height</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">scaled_width</span><span class="p">,</span> <span class="n">scaled_height</span>
+    <span class="k">return</span> <span class="n">scaled_width</span><span class="p">,</span> <span class="n">scaled_height</span></div>
+
 
 
 <div class="viewcode-block" id="VideoResizeAspectRatioMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoResizeAspectRatioMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to resize videos by aspect ratio.</span>
@@ -143,7 +146,7 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</h1>
     <span class="n">STRATEGY</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;decrease&#39;</span><span class="p">,</span> <span class="s1">&#39;increase&#39;</span><span class="p">]</span>
 
 <div class="viewcode-block" id="VideoResizeAspectRatioMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
         <span class="bp">self</span><span class="p">,</span>
         <span class="n">min_ratio</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;9/21&#39;</span><span class="p">,</span>
@@ -185,7 +188,7 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</h1>
 
 
 <div class="viewcode-block" id="VideoResizeAspectRatioMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">):</span>
         <span class="c1"># there is no video in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html b/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html
index becbee81d..232b747a0 100644
--- a/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_resolution_mapper</h1><d
 
 
 <div class="viewcode-block" id="VideoResizeResolutionMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoResizeResolutionMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -109,7 +109,7 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_resolution_mapper</h1><d
 <span class="sd">    &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="VideoResizeResolutionMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">min_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
                  <span class="n">max_width</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span><span class="p">,</span>
@@ -169,7 +169,7 @@ <h1>Source code for data_juicer.ops.mapper.video_resize_resolution_mapper</h1><d
 
 
 <div class="viewcode-block" id="VideoResizeResolutionMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># there is no video in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html b/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html
index 7c63ea1bf..da5550a13 100644
--- a/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,19 +93,22 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_duration_mapper</h1><d
 <span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
 
 
+<div class="viewcode-block" id="create_replacer">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer">[docs]</a>
 <span class="k">def</span> <span class="nf">create_replacer</span><span class="p">(</span><span class="n">replacements</span><span class="p">):</span>
 
     <span class="k">def</span> <span class="nf">replacer</span><span class="p">(</span><span class="n">match</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">replacements</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">replacer</span>
+    <span class="k">return</span> <span class="n">replacer</span></div>
+
 
 
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_split_by_duration_mapper&#39;</span>
 
 
 <div class="viewcode-block" id="VideoSplitByDurationMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoSplitByDurationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -115,7 +118,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_duration_mapper</h1><d
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoSplitByDurationMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">split_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
                  <span class="n">min_last_split_duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
@@ -146,7 +149,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_duration_mapper</h1><d
 
 
 <div class="viewcode-block" id="VideoSplitByDurationMapper.split_videos_by_duration">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration">[docs]</a>
     <span class="k">def</span> <span class="nf">split_videos_by_duration</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">container</span><span class="p">):</span>
         <span class="n">video_duration</span> <span class="o">=</span> <span class="n">get_video_duration</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
         <span class="n">timestamps</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">video_duration</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">split_duration</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
@@ -231,7 +234,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_duration_mapper</h1><d
         <span class="k">return</span> <span class="p">[</span><span class="n">split_sample</span><span class="p">]</span>
 
 <div class="viewcode-block" id="VideoSplitByDurationMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
         <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
diff --git a/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html b/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html
index d24b03a29..f9a1b5424 100644
--- a/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -91,19 +91,22 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_key_frame_mapper</h1><
 <span class="kn">from</span> <span class="nn">..op_fusion</span> <span class="kn">import</span> <span class="n">LOADED_VIDEOS</span>
 
 
+<div class="viewcode-block" id="create_replacer">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer">[docs]</a>
 <span class="k">def</span> <span class="nf">create_replacer</span><span class="p">(</span><span class="n">replacements</span><span class="p">):</span>
 
     <span class="k">def</span> <span class="nf">replacer</span><span class="p">(</span><span class="n">match</span><span class="p">):</span>
         <span class="k">return</span> <span class="n">replacements</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
 
-    <span class="k">return</span> <span class="n">replacer</span>
+    <span class="k">return</span> <span class="n">replacer</span></div>
+
 
 
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_split_by_key_frame_mapper&#39;</span>
 
 
 <div class="viewcode-block" id="VideoSplitByKeyFrameMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@LOADED_VIDEOS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoSplitByKeyFrameMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -113,7 +116,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_key_frame_mapper</h1><
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="VideoSplitByKeyFrameMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">keep_original_sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -133,7 +136,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_key_frame_mapper</h1><
 
 
 <div class="viewcode-block" id="VideoSplitByKeyFrameMapper.get_split_key_frame">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">[docs]</a>
     <span class="k">def</span> <span class="nf">get_split_key_frame</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">video_key</span><span class="p">,</span> <span class="n">container</span><span class="p">):</span>
         <span class="n">timestamps</span> <span class="o">=</span> <span class="n">get_key_frame_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
 
@@ -213,7 +216,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_key_frame_mapper</h1><
         <span class="k">return</span> <span class="p">[</span><span class="n">split_sample</span><span class="p">]</span>
 
 <div class="viewcode-block" id="VideoSplitByKeyFrameMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="c1"># reconstruct samples from &quot;dict of lists&quot; to &quot;list of dicts&quot;</span>
         <span class="n">reconstructed_samples</span> <span class="o">=</span> <span class="p">[]</span>
diff --git a/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html b/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html
index 85664a210..68e5e55db 100644
--- a/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -96,16 +96,19 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_scene_mapper</h1><div
 <span class="n">OP_NAME</span> <span class="o">=</span> <span class="s1">&#39;video_split_by_scene_mapper&#39;</span>
 
 
+<div class="viewcode-block" id="replace_func">
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func">[docs]</a>
 <span class="k">def</span> <span class="nf">replace_func</span><span class="p">(</span><span class="n">match</span><span class="p">,</span> <span class="n">scene_counts_iter</span><span class="p">):</span>
     <span class="k">try</span><span class="p">:</span>
         <span class="n">count</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">scene_counts_iter</span><span class="p">)</span>
         <span class="k">return</span> <span class="n">SpecialTokens</span><span class="o">.</span><span class="n">video</span> <span class="o">*</span> <span class="n">count</span>
     <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
-        <span class="k">return</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span></div>
+
 
 
 <div class="viewcode-block" id="VideoSplitBySceneMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoSplitBySceneMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Mapper to cut videos into scene clips.</span>
@@ -123,7 +126,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_scene_mapper</h1><div
     <span class="p">}</span>
 
 <div class="viewcode-block" id="VideoSplitBySceneMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">detector</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;ContentDetector&#39;</span><span class="p">,</span>
                  <span class="n">threshold</span><span class="p">:</span> <span class="n">NonNegativeFloat</span> <span class="o">=</span> <span class="mf">27.0</span><span class="p">,</span>
@@ -165,7 +168,7 @@ <h1>Source code for data_juicer.ops.mapper.video_split_by_scene_mapper</h1><div
 
 
 <div class="viewcode-block" id="VideoSplitBySceneMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># there is no video in this sample</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">video_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">sample</span> <span class="ow">or</span> <span class="ow">not</span> <span class="n">sample</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">video_key</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html b/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html
index ac864cc45..865f05f66 100644
--- a/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -93,7 +93,7 @@ <h1>Source code for data_juicer.ops.mapper.video_tagging_from_audio_mapper</h1><
 
 
 <div class="viewcode-block" id="VideoTaggingFromAudioMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper">[docs]</a>
 <span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">VideoTaggingFromAudioMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
@@ -104,7 +104,7 @@ <h1>Source code for data_juicer.ops.mapper.video_tagging_from_audio_mapper</h1><
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoTaggingFromAudioMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">hf_ast</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;MIT/ast-finetuned-audioset-10-10-0.4593&#39;</span><span class="p">,</span>
                  <span class="n">trust_remote_code</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
@@ -134,7 +134,7 @@ <h1>Source code for data_juicer.ops.mapper.video_tagging_from_audio_mapper</h1><
 
 
 <div class="viewcode-block" id="VideoTaggingFromAudioMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s generated already</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html b/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html
index 2eb7b8551..ed6d3af3b 100644
--- a/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html
+++ b/_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,7 +99,7 @@ <h1>Source code for data_juicer.ops.mapper.video_tagging_from_frames_mapper</h1>
 
 
 <div class="viewcode-block" id="VideoTaggingFromFramesMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper">[docs]</a>
 <span class="nd">@TAGGING_OPS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@UNFORKABLE</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="n">OP_NAME</span><span class="p">)</span>
@@ -111,7 +111,7 @@ <h1>Source code for data_juicer.ops.mapper.video_tagging_from_frames_mapper</h1>
     <span class="n">_accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
 
 <div class="viewcode-block" id="VideoTaggingFromFramesMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">frame_sampling_method</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;all_keyframes&#39;</span><span class="p">,</span>
                  <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">3</span><span class="p">,</span>
@@ -157,7 +157,7 @@ <h1>Source code for data_juicer.ops.mapper.video_tagging_from_frames_mapper</h1>
 
 
 <div class="viewcode-block" id="VideoTaggingFromFramesMapper.process_single">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single">[docs]</a>
     <span class="k">def</span> <span class="nf">process_single</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">sample</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
         <span class="c1"># check if it&#39;s generated already</span>
         <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tag_field_name</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">meta</span><span class="p">]:</span>
diff --git a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
index 68e2dfc44..00c594338 100644
--- a/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
+++ b/_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,7 +86,7 @@ <h1>Source code for data_juicer.ops.mapper.whitespace_normalization_mapper</h1><
 
 
 <div class="viewcode-block" id="WhitespaceNormalizationMapper">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;whitespace_normalization_mapper&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">WhitespaceNormalizationMapper</span><span class="p">(</span><span class="n">Mapper</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
@@ -100,7 +100,7 @@ <h1>Source code for data_juicer.ops.mapper.whitespace_normalization_mapper</h1><
     <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
 
 <div class="viewcode-block" id="WhitespaceNormalizationMapper.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
 <span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
 <span class="sd">        Initialization method.</span>
@@ -112,7 +112,7 @@ <h1>Source code for data_juicer.ops.mapper.whitespace_normalization_mapper</h1><
 
 
 <div class="viewcode-block" id="WhitespaceNormalizationMapper.process_batched">
-<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched">[docs]</a>
     <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
         <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="n">text</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">text_key</span><span class="p">]):</span>
             <span class="c1"># remove whitespaces before and after the main content</span>
diff --git a/_modules/data_juicer/ops/op_fusion.html b/_modules/data_juicer/ops/op_fusion.html
new file mode 100644
index 000000000..a7d3f59cc
--- /dev/null
+++ b/_modules/data_juicer/ops/op_fusion.html
@@ -0,0 +1,332 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.ops.op_fusion &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.op_fusion</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.ops.op_fusion</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">Fields</span><span class="p">,</span> <span class="n">InterVars</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.registry</span> <span class="kn">import</span> <span class="n">Registry</span>
+
+<span class="kn">from</span> <span class="nn">.base_op</span> <span class="kn">import</span> <span class="n">Filter</span>
+
+<span class="c1"># Type of intermediate vars</span>
+<span class="c1"># text</span>
+<span class="n">INTER_LINES</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">lines</span><span class="p">)</span>
+<span class="n">INTER_WORDS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">words</span><span class="p">)</span>
+
+<span class="c1"># images</span>
+<span class="n">LOADED_IMAGES</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">loaded_images</span><span class="p">)</span>
+
+<span class="c1"># audios</span>
+<span class="n">LOADED_AUDIOS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">loaded_audios</span><span class="p">)</span>
+
+<span class="c1"># videos</span>
+<span class="n">LOADED_VIDEOS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">loaded_videos</span><span class="p">)</span>
+<span class="n">INTER_SAMPLED_FRAMES</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="n">InterVars</span><span class="o">.</span><span class="n">sampled_frames</span><span class="p">)</span>
+
+<span class="c1"># all</span>
+<span class="n">ALL_INTER_VARS</span> <span class="o">=</span> <span class="p">[</span>
+    <span class="n">INTER_LINES</span><span class="p">,</span> <span class="n">INTER_WORDS</span><span class="p">,</span> <span class="n">LOADED_IMAGES</span><span class="p">,</span> <span class="n">LOADED_VIDEOS</span><span class="p">,</span>
+    <span class="n">INTER_SAMPLED_FRAMES</span>
+<span class="p">]</span>
+
+<span class="c1"># supported fusion strategies</span>
+<span class="n">FUSION_STRATEGIES</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;greedy&#39;</span><span class="p">,</span> <span class="s1">&#39;probe&#39;</span><span class="p">}</span>
+
+
+<div class="viewcode-block" id="fuse_operators">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_operators">[docs]</a>
+<span class="k">def</span> <span class="nf">fuse_operators</span><span class="p">(</span><span class="n">ops</span><span class="p">,</span> <span class="n">probe_res</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Fuse the input ops list and return the fused ops list.</span>
+
+<span class="sd">    :param ops: the corresponding list of op objects.</span>
+<span class="sd">    :param probe_res: the probed speed for each OP from Monitor.</span>
+<span class="sd">    :return: a list of fused op objects.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">probe_res</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">probe_res</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">ops</span><span class="p">))]</span>
+    <span class="c1"># detect filter groups and try to fuse them</span>
+    <span class="n">fused_ops</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">filter_group</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">in_group</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">for</span> <span class="n">op</span><span class="p">,</span> <span class="n">op_probe</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">ops</span><span class="p">,</span> <span class="n">probe_res</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">op</span><span class="p">,</span> <span class="n">Filter</span><span class="p">):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">in_group</span><span class="p">:</span>
+                <span class="n">in_group</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">filter_group</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">op</span><span class="p">,</span> <span class="n">op_probe</span><span class="p">))</span>
+        <span class="k">elif</span> <span class="n">in_group</span><span class="p">:</span>
+            <span class="c1"># got a filter group, try to fuse them</span>
+            <span class="n">fused_group</span> <span class="o">=</span> <span class="n">fuse_filter_group</span><span class="p">(</span><span class="n">filter_group</span><span class="p">)</span>
+            <span class="n">fused_ops</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">fused_group</span><span class="p">)</span>
+            <span class="n">filter_group</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">in_group</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="c1"># and add the current non-filter op into fused_ops</span>
+            <span class="n">fused_ops</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>  <span class="c1"># not a filter and not in a filter group, skip</span>
+            <span class="n">fused_ops</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">in_group</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">filter_group</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># the final filter group, try to fuse them</span>
+        <span class="n">fused_group</span> <span class="o">=</span> <span class="n">fuse_filter_group</span><span class="p">(</span><span class="n">filter_group</span><span class="p">)</span>
+        <span class="n">fused_ops</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">fused_group</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">fused_ops</span></div>
+
+
+
+<div class="viewcode-block" id="fuse_filter_group">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_filter_group">[docs]</a>
+<span class="k">def</span> <span class="nf">fuse_filter_group</span><span class="p">(</span><span class="n">original_filter_group</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Fuse single filter group and return the fused filter group.</span>
+
+<span class="sd">    :param original_filter_group: the original filter group, including op</span>
+<span class="sd">        definitions and objects.</span>
+<span class="sd">    :return: the fused definitions and objects of the input filter group.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">fused_group</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">group_speed</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">all_intermediate_vars</span> <span class="o">=</span> <span class="n">ALL_INTER_VARS</span>
+    <span class="n">all_fused_filters</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">inter_vars</span><span class="p">:</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">inter_vars</span> <span class="ow">in</span> <span class="n">all_intermediate_vars</span>
+    <span class="p">}</span>
+    <span class="c1"># group these filters by their intermediate vars</span>
+    <span class="k">for</span> <span class="n">op</span><span class="p">,</span> <span class="n">probe_res</span> <span class="ow">in</span> <span class="n">original_filter_group</span><span class="p">:</span>
+        <span class="n">op_name</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">_name</span>
+        <span class="k">for</span> <span class="n">inter_vars</span> <span class="ow">in</span> <span class="n">all_intermediate_vars</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">op_name</span> <span class="ow">in</span> <span class="n">inter_vars</span><span class="o">.</span><span class="n">modules</span><span class="p">:</span>
+                <span class="n">all_fused_filters</span><span class="p">[</span><span class="n">inter_vars</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">((</span><span class="n">op</span><span class="p">,</span> <span class="n">probe_res</span><span class="p">))</span>
+                <span class="k">break</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># first apply other filters to decrease the number of samples, so</span>
+            <span class="c1"># we add them into the fused_group list directly</span>
+            <span class="n">fused_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+            <span class="n">group_speed</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">probe_res</span><span class="p">[</span><span class="s1">&#39;speed&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">probe_res</span> <span class="k">else</span> <span class="mi">0</span><span class="p">)</span>
+
+    <span class="c1"># try to fuse ops for each type of intermediate vars</span>
+    <span class="k">for</span> <span class="n">inter_vars</span> <span class="ow">in</span> <span class="n">all_intermediate_vars</span><span class="p">:</span>
+        <span class="n">inter_vars_filter</span> <span class="o">=</span> <span class="n">all_fused_filters</span><span class="p">[</span><span class="n">inter_vars</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">inter_vars_filter</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># no ops include this type of intermediate var</span>
+            <span class="k">pass</span>
+        <span class="k">elif</span> <span class="nb">len</span><span class="p">(</span><span class="n">inter_vars_filter</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="c1"># more than 1 ops share the same intermediate var, try to fuse them</span>
+            <span class="n">ops</span><span class="p">,</span> <span class="n">probe_res_list</span> <span class="o">=</span> <span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">inter_vars_filter</span><span class="p">)</span>
+            <span class="c1"># new definition: new name and a definition list of fused op list</span>
+            <span class="n">fused_filter_name</span> <span class="o">=</span> <span class="s1">&#39;OpFusion:(</span><span class="si">%s</span><span class="s1">)&#39;</span> <span class="o">%</span> <span class="s1">&#39;,&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                <span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">_name</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">ops</span><span class="p">])</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Ops are fused into one op &#39;</span>
+                        <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">fused_filter_name</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+            <span class="c1"># use these ops to create a FusedFilter object, and add the fused</span>
+            <span class="c1"># definition and op into the fused group</span>
+            <span class="n">fused_filter</span> <span class="o">=</span> <span class="n">FusedFilter</span><span class="p">(</span><span class="n">fused_filter_name</span><span class="p">,</span> <span class="n">ops</span><span class="p">)</span>
+            <span class="n">fused_filter</span><span class="o">.</span><span class="n">_op_cfg</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="n">fused_filter_name</span><span class="p">:</span> <span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">_op_cfg</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="n">ops</span><span class="p">]</span>
+            <span class="p">}</span>
+            <span class="n">fused_filter_speed</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">([</span>
+                <span class="mf">1.0</span> <span class="o">/</span> <span class="n">probe_res</span><span class="p">[</span><span class="s1">&#39;speed&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">probe_res</span> <span class="ow">in</span> <span class="n">probe_res_list</span>
+                <span class="k">if</span> <span class="n">probe_res</span>
+            <span class="p">])</span>
+            <span class="k">if</span> <span class="n">fused_filter_speed</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="n">fused_filter_speed</span> <span class="o">=</span> <span class="mf">1.0</span> <span class="o">/</span> <span class="n">fused_filter_speed</span>
+            <span class="n">fused_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">fused_filter</span><span class="p">)</span>
+            <span class="n">group_speed</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">fused_filter_speed</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># only 1 op for this type of intermediate var, add it to the fused</span>
+            <span class="c1"># group directly without fusion</span>
+            <span class="n">fused_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">inter_vars_filter</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">0</span><span class="p">])</span>
+            <span class="n">probe_res</span> <span class="o">=</span> <span class="n">inter_vars_filter</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">group_speed</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">probe_res</span><span class="p">[</span><span class="s1">&#39;speed&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">probe_res</span> <span class="k">else</span> <span class="mi">0</span><span class="p">)</span>
+
+    <span class="c1"># reorder according to the probed speed results in group_speed</span>
+    <span class="c1"># &#39;greedy&#39;: all speed data in group_speed will be 0, which will keep the</span>
+    <span class="c1">#   current order of fused group</span>
+    <span class="c1"># &#39;probe&#39;: OPs in fused group will be reordered according to the speed data</span>
+    <span class="c1">#   in group_speed in descending order</span>
+    <span class="n">fused_group</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">op</span> <span class="k">for</span> <span class="n">op</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">sorted</span><span class="p">(</span>
+            <span class="nb">zip</span><span class="p">(</span><span class="n">fused_group</span><span class="p">,</span> <span class="n">group_speed</span><span class="p">),</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">it</span><span class="p">:</span> <span class="n">it</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="p">]</span>
+
+    <span class="k">return</span> <span class="n">fused_group</span></div>
+
+
+
+<div class="viewcode-block" id="FusedFilter">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter">[docs]</a>
+<span class="k">class</span> <span class="nc">FusedFilter</span><span class="p">(</span><span class="n">Filter</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;A fused operator for filters.&quot;&quot;&quot;</span>
+
+    <span class="n">_batched_op</span> <span class="o">=</span> <span class="kc">True</span>
+
+<div class="viewcode-block" id="FusedFilter.__init__">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">fused_filters</span><span class="p">:</span> <span class="n">List</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param fused_filters: a list of filters to be fused.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span> <span class="o">=</span> <span class="n">fused_filters</span>
+        <span class="c1"># set accelerator to &#39;cuda&#39; if there exists any ops whose accelerator</span>
+        <span class="c1"># is &#39;cuda&#39;</span>
+        <span class="n">accelerator_methods</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">op</span><span class="o">.</span><span class="n">accelerator</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">])</span>
+        <span class="k">if</span> <span class="s1">&#39;cuda&#39;</span> <span class="ow">in</span> <span class="n">accelerator_methods</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+        <span class="c1"># update num_proc with the min num_proc of all fusible filters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">([</span><span class="n">op</span><span class="o">.</span><span class="n">runtime_np</span><span class="p">()</span> <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">])</span></div>
+
+
+<div class="viewcode-block" id="FusedFilter.compute_stats_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched">[docs]</a>
+    <span class="k">def</span> <span class="nf">compute_stats_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="kn">import</span> <span class="nn">av</span>
+
+        <span class="c1"># context for the intermediate vars</span>
+        <span class="n">num_samples</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">stats</span><span class="p">])</span>
+        <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]</span> <span class="o">=</span> <span class="p">[{}</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">)]</span>
+        <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">:</span>
+            <span class="c1"># open the context for these fused ops</span>
+            <span class="k">if</span> <span class="n">op</span><span class="o">.</span><span class="n">accelerator</span> <span class="o">==</span> <span class="s1">&#39;cuda&#39;</span><span class="p">:</span>
+                <span class="n">samples</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">compute_stats_batched</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span>
+                                                   <span class="n">rank</span><span class="o">=</span><span class="n">rank</span><span class="p">,</span>
+                                                   <span class="n">context</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">samples</span> <span class="o">=</span> <span class="n">op</span><span class="o">.</span><span class="n">compute_stats_batched</span><span class="p">(</span><span class="n">samples</span><span class="p">,</span> <span class="n">context</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="c1"># clean up the contexts after processing</span>
+        <span class="c1"># check if there are containers that need to be closed</span>
+        <span class="k">for</span> <span class="n">ctx</span> <span class="ow">in</span> <span class="n">samples</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+            <span class="k">for</span> <span class="n">context_key</span> <span class="ow">in</span> <span class="n">ctx</span><span class="p">:</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ctx</span><span class="p">[</span><span class="n">context_key</span><span class="p">],</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+                    <span class="n">ctx</span><span class="p">[</span><span class="n">context_key</span><span class="p">]</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+                    <span class="n">ctx</span><span class="p">[</span><span class="n">context_key</span><span class="p">]</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+        <span class="n">_</span> <span class="o">=</span> <span class="n">samples</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">samples</span></div>
+
+
+<div class="viewcode-block" id="FusedFilter.process_batched">
+<a class="viewcode-back" href="../../../data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process_batched">[docs]</a>
+    <span class="k">def</span> <span class="nf">process_batched</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">samples</span><span class="p">):</span>
+        <span class="c1"># Only return True when all filters return True</span>
+        <span class="n">res</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">fused_filters</span><span class="p">:</span>
+            <span class="n">this_res</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="nb">list</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">process_batched</span><span class="p">(</span><span class="n">samples</span><span class="p">)))</span>
+            <span class="k">if</span> <span class="n">res</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">res</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">logical_and</span><span class="p">(</span><span class="n">res</span><span class="p">,</span> <span class="n">this_res</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">res</span> <span class="o">=</span> <span class="n">this_res</span>
+        <span class="k">return</span> <span class="n">res</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
index b34763e61..ab01ad1c1 100644
--- a/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
+++ b/_modules/data_juicer/ops/selector/frequency_specified_field_selector.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -87,14 +87,14 @@ <h1>Source code for data_juicer.ops.selector.frequency_specified_field_selector<
 
 
 <div class="viewcode-block" id="FrequencySpecifiedFieldSelector">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;frequency_specified_field_selector&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">FrequencySpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select samples based on the sorted frequency of specified</span>
 <span class="sd">    field.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="FrequencySpecifiedFieldSelector.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">top_ratio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
@@ -133,7 +133,7 @@ <h1>Source code for data_juicer.ops.selector.frequency_specified_field_selector<
 
 
 <div class="viewcode-block" id="FrequencySpecifiedFieldSelector.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">dataset</span>
diff --git a/_modules/data_juicer/ops/selector/random_selector.html b/_modules/data_juicer/ops/selector/random_selector.html
index bf7a1d8fd..425ff0465 100644
--- a/_modules/data_juicer/ops/selector/random_selector.html
+++ b/_modules/data_juicer/ops/selector/random_selector.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -88,13 +88,13 @@ <h1>Source code for data_juicer.ops.selector.random_selector</h1><div class="hig
 
 
 <div class="viewcode-block" id="RandomSelector">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;random_selector&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RandomSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to random select samples. &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RandomSelector.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">select_ratio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
                                                   <span class="n">Field</span><span class="p">(</span><span class="n">ge</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">le</span><span class="o">=</span><span class="mi">1</span><span class="p">)]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
@@ -119,7 +119,7 @@ <h1>Source code for data_juicer.ops.selector.random_selector</h1><div class="hig
 
 
 <div class="viewcode-block" id="RandomSelector.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">dataset</span>
diff --git a/_modules/data_juicer/ops/selector/range_specified_field_selector.html b/_modules/data_juicer/ops/selector/range_specified_field_selector.html
index a2e5618e5..3c3159902 100644
--- a/_modules/data_juicer/ops/selector/range_specified_field_selector.html
+++ b/_modules/data_juicer/ops/selector/range_specified_field_selector.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,14 +89,14 @@ <h1>Source code for data_juicer.ops.selector.range_specified_field_selector</h1>
 
 
 <div class="viewcode-block" id="RangeSpecifiedFieldSelector">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;range_specified_field_selector&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">RangeSpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select a range of samples based on the sorted</span>
 <span class="sd">    specified field value from smallest to largest. &quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="RangeSpecifiedFieldSelector.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
             <span class="bp">self</span><span class="p">,</span>
             <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
@@ -147,7 +147,7 @@ <h1>Source code for data_juicer.ops.selector.range_specified_field_selector</h1>
 
 
 <div class="viewcode-block" id="RangeSpecifiedFieldSelector.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">dataset</span>
diff --git a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
index 3b10e72cd..6d0f03ad6 100644
--- a/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
+++ b/_modules/data_juicer/ops/selector/topk_specified_field_selector.html
@@ -11,7 +11,7 @@
 
   
       <script src="../../../../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../../../../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../../../../_static/doctools.js?v=9a2dae69"></script>
       <script src="../../../../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../../../../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../../../../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -89,14 +89,14 @@ <h1>Source code for data_juicer.ops.selector.topk_specified_field_selector</h1><
 
 
 <div class="viewcode-block" id="TopkSpecifiedFieldSelector">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">[docs]</a>
 <span class="nd">@OPERATORS</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span><span class="s1">&#39;topk_specified_field_selector&#39;</span><span class="p">)</span>
 <span class="k">class</span> <span class="nc">TopkSpecifiedFieldSelector</span><span class="p">(</span><span class="n">Selector</span><span class="p">):</span>
 <span class="w">    </span><span class="sd">&quot;&quot;&quot;Selector to select top samples based on the sorted specified field</span>
 <span class="sd">    value.&quot;&quot;&quot;</span>
 
 <div class="viewcode-block" id="TopkSpecifiedFieldSelector.__init__">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">[docs]</a>
     <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
                  <span class="n">field_key</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
                  <span class="n">top_ratio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Annotated</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span>
@@ -135,7 +135,7 @@ <h1>Source code for data_juicer.ops.selector.topk_specified_field_selector</h1><
 
 
 <div class="viewcode-block" id="TopkSpecifiedFieldSelector.process">
-<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.process">[docs]</a>
+<a class="viewcode-back" href="../../../../data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">[docs]</a>
     <span class="k">def</span> <span class="nf">process</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">):</span>
         <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="mi">1</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">field_key</span><span class="p">:</span>
             <span class="k">return</span> <span class="n">dataset</span>
diff --git a/_modules/data_juicer/utils/asset_utils.html b/_modules/data_juicer/utils/asset_utils.html
new file mode 100644
index 000000000..f2a71b161
--- /dev/null
+++ b/_modules/data_juicer/utils/asset_utils.html
@@ -0,0 +1,170 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.asset_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.asset_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.asset_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">json</span>
+<span class="kn">import</span> <span class="nn">os</span>
+
+<span class="kn">import</span> <span class="nn">requests</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">.cache_utils</span> <span class="kn">import</span> <span class="n">DATA_JUICER_ASSETS_CACHE</span>
+
+<span class="c1"># Default directory to store auxiliary resources</span>
+<span class="n">ASSET_DIR</span> <span class="o">=</span> <span class="n">DATA_JUICER_ASSETS_CACHE</span>
+
+<span class="c1"># Default cached assets links for downloading</span>
+<span class="n">ASSET_LINKS</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;flagged_words&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
+    <span class="s1">&#39;data_juicer/flagged_words.json&#39;</span><span class="p">,</span>
+    <span class="s1">&#39;stopwords&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
+    <span class="s1">&#39;data_juicer/stopwords.json&#39;</span><span class="p">,</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="load_words_asset">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset">[docs]</a>
+<span class="k">def</span> <span class="nf">load_words_asset</span><span class="p">(</span><span class="n">words_dir</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">words_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Load words from a asset file named `words_type`, if not find a valid asset</span>
+<span class="sd">    file, then download it from ASSET_LINKS cached by data_juicer team.</span>
+
+<span class="sd">    :param words_dir: directory that stores asset file(s)</span>
+<span class="sd">    :param words_type: name of target words assets</span>
+<span class="sd">    :return: a dict that stores words assets, whose keys are language</span>
+<span class="sd">        names, and the values are lists of words</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">words_dict</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># try to load words from `words_type` file</span>
+    <span class="k">for</span> <span class="n">filename</span> <span class="ow">in</span> <span class="n">os</span><span class="o">.</span><span class="n">listdir</span><span class="p">(</span><span class="n">words_dir</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">filename</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;.json&#39;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">words_type</span> <span class="ow">in</span> <span class="n">filename</span><span class="p">:</span>
+            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">),</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">file</span><span class="p">:</span>
+                <span class="n">loaded_words</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">file</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">loaded_words</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">words_dict</span><span class="p">:</span>
+                        <span class="n">words_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">+=</span> <span class="n">loaded_words</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">words_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">loaded_words</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+    <span class="c1"># if the asset file is not found, then download it from ASSET_LINKS</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">bool</span><span class="p">(</span><span class="n">words_dict</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Specified </span><span class="si">{</span><span class="n">words_dir</span><span class="si">}</span><span class="s1"> does not contain &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;any </span><span class="si">{</span><span class="n">words_type</span><span class="si">}</span><span class="s1"> files in json format, now &#39;</span>
+                    <span class="s1">&#39;download the one cached by data_juicer team&#39;</span><span class="p">)</span>
+        <span class="n">response</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">ASSET_LINKS</span><span class="p">[</span><span class="n">words_type</span><span class="p">])</span>
+        <span class="n">words_dict</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">json</span><span class="p">()</span>
+        <span class="c1"># cache the asset file locally</span>
+        <span class="n">cache_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">words_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">words_type</span><span class="si">}</span><span class="s1">.json&#39;</span><span class="p">)</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">cache_path</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">file</span><span class="p">:</span>
+            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="n">words_dict</span><span class="p">,</span> <span class="n">file</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">words_dict</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/auto_install_utils.html b/_modules/data_juicer/utils/auto_install_utils.html
new file mode 100644
index 000000000..f9b73eae6
--- /dev/null
+++ b/_modules/data_juicer/utils/auto_install_utils.html
@@ -0,0 +1,221 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.auto_install_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.auto_install_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.auto_install_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">subprocess</span>
+<span class="kn">import</span> <span class="nn">sys</span>
+
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils.auto_install_mapping</span> <span class="kn">import</span> <span class="n">MODULE_TO_PKGS</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.availability_utils</span> <span class="kn">import</span> <span class="n">_torch_check_and_set</span>
+
+
+<span class="k">def</span> <span class="nf">_is_module_installed</span><span class="p">(</span><span class="n">module_name</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="n">MODULE_TO_PKGS</span><span class="p">:</span>
+        <span class="n">pkgs</span> <span class="o">=</span> <span class="n">MODULE_TO_PKGS</span><span class="p">[</span><span class="n">module_name</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">pkgs</span> <span class="o">=</span> <span class="p">[</span><span class="n">module_name</span><span class="p">]</span>
+    <span class="k">for</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="n">pkgs</span><span class="p">:</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">_is_package_installed</span><span class="p">(</span><span class="n">pkg</span><span class="p">):</span>
+            <span class="k">return</span> <span class="kc">False</span>
+    <span class="k">return</span> <span class="kc">True</span>
+
+
+<span class="k">def</span> <span class="nf">_is_package_installed</span><span class="p">(</span><span class="n">package_name</span><span class="p">):</span>
+    <span class="k">if</span> <span class="s1">&#39;@&#39;</span> <span class="ow">in</span> <span class="n">package_name</span><span class="p">:</span>
+        <span class="n">package_name</span> <span class="o">=</span> <span class="n">package_name</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;@&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="k">if</span> <span class="s1">&#39;[&#39;</span> <span class="ow">in</span> <span class="n">package_name</span><span class="p">:</span>
+        <span class="n">package_name</span> <span class="o">=</span> <span class="n">package_name</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;[&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">subprocess</span><span class="o">.</span><span class="n">check_output</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;show&#39;</span><span class="p">,</span> <span class="s1">&#39;-q&#39;</span><span class="p">,</span> <span class="n">package_name</span><span class="p">],</span>
+            <span class="n">stderr</span><span class="o">=</span><span class="n">subprocess</span><span class="o">.</span><span class="n">STDOUT</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">True</span>
+    <span class="k">except</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">CalledProcessError</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="AutoInstaller">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller">[docs]</a>
+<span class="k">class</span> <span class="nc">AutoInstaller</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to install the required</span>
+<span class="sd">    package automatically.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="AutoInstaller.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">require_f_paths</span><span class="o">=</span><span class="p">[]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param require_f_paths: paths to the file for version limitation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">,</span> <span class="n">reqs</span> <span class="o">=</span> <span class="p">{},</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">require_f_paths</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;target file does not exist: </span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">,</span> <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
+                    <span class="n">reqs</span> <span class="o">+=</span> <span class="p">[</span><span class="n">x</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">fin</span><span class="o">.</span><span class="n">read</span><span class="p">()</span><span class="o">.</span><span class="n">splitlines</span><span class="p">()]</span>
+        <span class="k">for</span> <span class="n">req</span> <span class="ow">in</span> <span class="n">reqs</span><span class="p">:</span>
+            <span class="n">clean_req</span> <span class="o">=</span> <span class="n">req</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&lt;&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;&gt;&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="s1">&#39;=&#39;</span><span class="p">,</span> <span class="s1">&#39; &#39;</span><span class="p">)</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39; &#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">[</span><span class="n">clean_req</span><span class="p">]</span> <span class="o">=</span> <span class="n">req</span></div>
+
+
+<div class="viewcode-block" id="AutoInstaller.check">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.check">[docs]</a>
+    <span class="k">def</span> <span class="nf">check</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">check_pkgs</span><span class="p">,</span> <span class="n">param</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        install if the package is not installed.</span>
+
+<span class="sd">        :param check_pkgs: packages to be check, install them if they are</span>
+<span class="sd">            not installed</span>
+<span class="sd">        :param param: install param for pip if necessary</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">for</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="n">check_pkgs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">_is_package_installed</span><span class="p">(</span><span class="n">pkg</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Installing </span><span class="si">{</span><span class="n">pkg</span><span class="si">}</span><span class="s1"> ...&#39;</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">:</span>
+                    <span class="n">pkg</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">[</span><span class="n">pkg</span><span class="p">]</span>
+                <span class="c1"># not install the dependency of this pkg</span>
+                <span class="k">if</span> <span class="n">param</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">pip_cmd</span> <span class="o">=</span> <span class="p">[</span><span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;install&#39;</span><span class="p">,</span> <span class="n">pkg</span><span class="p">]</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">pip_cmd</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;install&#39;</span><span class="p">,</span> <span class="n">param</span><span class="p">,</span> <span class="n">pkg</span>
+                    <span class="p">]</span>
+                <span class="n">subprocess</span><span class="o">.</span><span class="n">check_call</span><span class="p">(</span><span class="n">pip_cmd</span><span class="p">)</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The </span><span class="si">{</span><span class="n">pkg</span><span class="si">}</span><span class="s1"> installed.&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">pkg</span> <span class="o">==</span> <span class="s1">&#39;torch&#39;</span><span class="p">:</span>
+                <span class="n">_torch_check_and_set</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="AutoInstaller.install">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.install">[docs]</a>
+    <span class="k">def</span> <span class="nf">install</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        install package for given module.</span>
+
+<span class="sd">        :param module: module to be installed</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">module</span> <span class="ow">in</span> <span class="n">MODULE_TO_PKGS</span><span class="p">:</span>
+            <span class="n">pkgs</span> <span class="o">=</span> <span class="n">MODULE_TO_PKGS</span><span class="p">[</span><span class="n">module</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">pkgs</span> <span class="o">=</span> <span class="p">[</span><span class="n">module</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="n">pkgs</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">pkg</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">:</span>
+                <span class="n">pkg</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">version_map</span><span class="p">[</span><span class="n">pkg</span><span class="p">]</span>
+            <span class="n">pip_cmd</span> <span class="o">=</span> <span class="p">[</span><span class="n">sys</span><span class="o">.</span><span class="n">executable</span><span class="p">,</span> <span class="s1">&#39;-m&#39;</span><span class="p">,</span> <span class="s1">&#39;pip&#39;</span><span class="p">,</span> <span class="s1">&#39;install&#39;</span><span class="p">,</span> <span class="n">pkg</span><span class="p">]</span>
+            <span class="n">subprocess</span><span class="o">.</span><span class="n">check_call</span><span class="p">(</span><span class="n">pip_cmd</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The </span><span class="si">{</span><span class="n">pkg</span><span class="si">}</span><span class="s1"> installed.&#39;</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/cache_utils.html b/_modules/data_juicer/utils/cache_utils.html
new file mode 100644
index 000000000..aeb99587c
--- /dev/null
+++ b/_modules/data_juicer/utils/cache_utils.html
@@ -0,0 +1,188 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.cache_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.cache_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.cache_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">from</span> <span class="nn">functools</span> <span class="kn">import</span> <span class="n">wraps</span>
+
+<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">disable_caching</span><span class="p">,</span> <span class="n">enable_caching</span><span class="p">,</span> <span class="n">is_caching_enabled</span>
+
+<span class="c1"># Default cache location</span>
+<span class="n">DEFAULT_CACHE_HOME</span> <span class="o">=</span> <span class="s1">&#39;~/.cache&#39;</span>
+<span class="n">CACHE_HOME</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;CACHE_HOME&#39;</span><span class="p">,</span> <span class="n">DEFAULT_CACHE_HOME</span><span class="p">)</span>
+
+<span class="c1"># Default data_juicer cache location</span>
+<span class="n">DEFAULT_DATA_JUICER_CACHE_HOME</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">CACHE_HOME</span><span class="p">,</span> <span class="s1">&#39;data_juicer&#39;</span><span class="p">)</span>
+<span class="n">DATA_JUICER_CACHE_HOME</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">expanduser</span><span class="p">(</span>
+    <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;DATA_JUICER_CACHE_HOME&#39;</span><span class="p">,</span> <span class="n">DEFAULT_DATA_JUICER_CACHE_HOME</span><span class="p">))</span>
+
+<span class="c1"># Default assets cache location</span>
+<span class="n">DEFAULT_DATA_JUICER_ASSETS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">DATA_JUICER_CACHE_HOME</span><span class="p">,</span>
+                                                <span class="s1">&#39;assets&#39;</span><span class="p">)</span>
+<span class="n">DATA_JUICER_ASSETS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;DATA_JUICER_ASSETS_CACHE&#39;</span><span class="p">,</span>
+                                     <span class="n">DEFAULT_DATA_JUICER_ASSETS_CACHE</span><span class="p">)</span>
+<span class="c1"># Default models cache location</span>
+<span class="n">DEFAULT_DATA_JUICER_MODELS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">DATA_JUICER_CACHE_HOME</span><span class="p">,</span>
+                                                <span class="s1">&#39;models&#39;</span><span class="p">)</span>
+<span class="n">DATA_JUICER_MODELS_CACHE</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;DATA_JUICER_MODELS_CACHE&#39;</span><span class="p">,</span>
+                                     <span class="n">DEFAULT_DATA_JUICER_MODELS_CACHE</span><span class="p">)</span>
+
+<span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="kc">None</span>
+
+
+<div class="viewcode-block" id="DatasetCacheControl">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl">[docs]</a>
+<span class="k">class</span> <span class="nc">DatasetCacheControl</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that change the cache state temporarily.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DatasetCacheControl.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">on</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">on</span> <span class="o">=</span> <span class="n">on</span></div>
+
+
+    <span class="k">def</span> <span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Record the original cache state and turn it to the target state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">previous_state</span> <span class="o">=</span> <span class="n">is_caching_enabled</span><span class="p">()</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">on</span><span class="p">:</span>
+            <span class="n">enable_caching</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">disable_caching</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Restore the original cache state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">previous_state</span><span class="p">:</span>
+            <span class="n">enable_caching</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">disable_caching</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="dataset_cache_control">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.cache_utils.dataset_cache_control">[docs]</a>
+<span class="k">def</span> <span class="nf">dataset_cache_control</span><span class="p">(</span><span class="n">on</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    A more easy-to-use decorator for functions that need to control the cache</span>
+<span class="sd">    state temporarily.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">dataset_cache_decorator</span><span class="p">(</span><span class="n">func</span><span class="p">):</span>
+
+        <span class="nd">@wraps</span><span class="p">(</span><span class="n">func</span><span class="p">)</span>
+        <span class="k">def</span> <span class="nf">wrapped_function</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+            <span class="k">with</span> <span class="n">DatasetCacheControl</span><span class="p">(</span><span class="n">on</span><span class="o">=</span><span class="n">on</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">func</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">wrapped_function</span>
+
+    <span class="k">return</span> <span class="n">dataset_cache_decorator</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/ckpt_utils.html b/_modules/data_juicer/utils/ckpt_utils.html
new file mode 100644
index 000000000..9b8dda410
--- /dev/null
+++ b/_modules/data_juicer/utils/ckpt_utils.html
@@ -0,0 +1,270 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.ckpt_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.ckpt_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.ckpt_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">json</span>
+<span class="kn">import</span> <span class="nn">os</span>
+
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="CheckpointManager">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager">[docs]</a>
+<span class="k">class</span> <span class="nc">CheckpointManager</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to save the latest version of dataset to checkpoint</span>
+<span class="sd">    directory or load it from checkpoint directory, a bit like cache management</span>
+<span class="sd">    Rerun the same config will reload the checkpoint and skip ops before it.</span>
+
+<span class="sd">    If any args of operator in process list is changed, all ops will be</span>
+<span class="sd">    rerun from the beginning.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="CheckpointManager.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">original_process_list</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param ckpt_dir: path to save and load checkpoint</span>
+<span class="sd">        :param original_process_list: process list in config</span>
+<span class="sd">        :param num_proc: number of process workers when saving dataset</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span> <span class="o">=</span> <span class="n">ckpt_dir</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="s1">&#39;latest&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="s1">&#39;ckpt_op.json&#39;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="n">original_process_list</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">ckpt_available</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ckpt</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.get_left_process_list">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">[docs]</a>
+    <span class="k">def</span> <span class="nf">get_left_process_list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get left process list of ops for processing dataset, when checkpoint is</span>
+<span class="sd">        available, remove some ops from process list, otherwise keep it</span>
+<span class="sd">        unchanged.</span>
+
+<span class="sd">        :return: process list of left ops</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.check_ckpt">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">[docs]</a>
+    <span class="k">def</span> <span class="nf">check_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Check if checkpoint is available.</span>
+
+<span class="sd">        :return: True when checkpoint is available, else False</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isfile</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">check_ops_to_skip</span><span class="p">():</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_dir</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.record">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record">[docs]</a>
+    <span class="k">def</span> <span class="nf">record</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">op_cfg</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Save op name and args to op record, which is used to compare with</span>
+<span class="sd">        the process list from config to decide if a checkpoint is available.&quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">op_cfg</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.check_ops_to_skip">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">[docs]</a>
+    <span class="k">def</span> <span class="nf">check_ops_to_skip</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Check which ops need to be skipped in the process list.</span>
+
+<span class="sd">        If op record list from checkpoint are the same as the prefix</span>
+<span class="sd">        part of process list, then skip these ops and start processing</span>
+<span class="sd">        from the checkpoint. Otherwise, process the original dataset</span>
+<span class="sd">        from scratch.</span>
+
+<span class="sd">        :return: whether to skip some ops or not</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="c1"># load op records</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">fin</span><span class="p">)</span>
+
+        <span class="c1"># check whether the op records are exactly the same</span>
+        <span class="c1"># with prefix of process list</span>
+        <span class="c1"># 1. same: remove these ops from process list</span>
+        <span class="c1"># 2. different: cleanup op record, and keep process list unchanged</span>
+        <span class="n">recorded_op_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">)</span>
+        <span class="n">process_op_num</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">process_op_num</span> <span class="o">&lt;</span> <span class="n">recorded_op_num</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Current config ops (</span><span class="si">{</span><span class="n">process_op_num</span><span class="si">}</span><span class="s1">) are fewer than &#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;checkpoint ops (</span><span class="si">{</span><span class="n">recorded_op_num</span><span class="si">}</span><span class="s1">). Cannot reuse checkpoint;&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39; all ops will be processed from the beginning.&#39;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="kc">False</span>
+
+        <span class="n">prefix_process</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">[:</span><span class="n">recorded_op_num</span><span class="p">]</span>
+        <span class="n">all_the_same</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">dif1</span><span class="p">,</span> <span class="n">dif2</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">record_op</span><span class="p">,</span> <span class="n">config_op</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">,</span> <span class="n">prefix_process</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">record_op</span> <span class="o">!=</span> <span class="n">config_op</span><span class="p">:</span>
+                <span class="n">all_the_same</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="n">dif1</span><span class="p">,</span> <span class="n">dif2</span> <span class="o">=</span> <span class="n">record_op</span><span class="p">,</span> <span class="n">config_op</span>
+                <span class="k">break</span>
+        <span class="k">if</span> <span class="n">all_the_same</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">op</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">:</span>
+                <span class="n">op_name</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">op</span><span class="o">.</span><span class="n">keys</span><span class="p">())[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Skip op [</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_list</span><span class="p">[</span><span class="n">recorded_op_num</span><span class="p">:]</span>
+            <span class="k">return</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Processed ops of checkpoint are different from &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;current configs: checkpoint-</span><span class="si">{</span><span class="n">dif1</span><span class="si">}</span><span class="s1"> vs. config-&#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dif2</span><span class="si">}</span><span class="s1">. All ops will be processed from the &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;beginning.&#39;</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">op_record</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="kc">False</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.save_ckpt">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">[docs]</a>
+    <span class="k">def</span> <span class="nf">save_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Save dataset to checkpoint directory and dump processed ops list.</span>
+
+<span class="sd">        :param ds: input dataset to save</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">ds</span><span class="o">.</span><span class="n">save_to_disk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_proc</span><span class="p">)</span>
+
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_op_record</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fout</span><span class="p">:</span>
+            <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">op_record</span><span class="p">,</span> <span class="n">fout</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CheckpointManager.load_ckpt">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">[docs]</a>
+    <span class="k">def</span> <span class="nf">load_ckpt</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Load dataset from a checkpoint file.</span>
+
+<span class="sd">        :return: a dataset stored in checkpoint file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">NestedDataset</span>
+        <span class="n">ds</span> <span class="o">=</span> <span class="n">NestedDataset</span><span class="o">.</span><span class="n">load_from_disk</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ckpt_ds_dir</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">ds</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/common_utils.html b/_modules/data_juicer/utils/common_utils.html
new file mode 100644
index 000000000..393257e43
--- /dev/null
+++ b/_modules/data_juicer/utils/common_utils.html
@@ -0,0 +1,277 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.common_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.common_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.common_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">hashlib</span>
+<span class="kn">import</span> <span class="nn">sys</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="stats_to_number">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.stats_to_number">[docs]</a>
+<span class="k">def</span> <span class="nf">stats_to_number</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="n">reverse</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&#39;&#39;&#39;</span>
+<span class="sd">        convert a stats value which can be string</span>
+<span class="sd">        of list to a float.</span>
+<span class="sd">    &#39;&#39;&#39;</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">s</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">s</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">s</span> <span class="o">==</span> <span class="p">[]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;empty value&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">s</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">())</span>
+    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">reverse</span><span class="p">:</span>
+            <span class="k">return</span> <span class="o">-</span><span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">sys</span><span class="o">.</span><span class="n">maxsize</span></div>
+
+
+
+<div class="viewcode-block" id="dict_to_hash">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.dict_to_hash">[docs]</a>
+<span class="k">def</span> <span class="nf">dict_to_hash</span><span class="p">(</span><span class="n">input_dict</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="n">hash_length</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        hash a dict to a string with length hash_length</span>
+
+<span class="sd">        :param input_dict: the given dict</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">sorted_items</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">input_dict</span><span class="o">.</span><span class="n">items</span><span class="p">())</span>
+    <span class="n">dict_string</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">sorted_items</span><span class="p">)</span><span class="o">.</span><span class="n">encode</span><span class="p">()</span>
+    <span class="n">hasher</span> <span class="o">=</span> <span class="n">hashlib</span><span class="o">.</span><span class="n">sha256</span><span class="p">()</span>
+    <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">dict_string</span><span class="p">)</span>
+    <span class="n">hash_value</span> <span class="o">=</span> <span class="n">hasher</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">hash_length</span><span class="p">:</span>
+        <span class="n">hash_value</span> <span class="o">=</span> <span class="n">hash_value</span><span class="p">[:</span><span class="n">hash_length</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">hash_value</span></div>
+
+
+
+<div class="viewcode-block" id="nested_access">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.nested_access">[docs]</a>
+<span class="k">def</span> <span class="nf">nested_access</span><span class="p">(</span><span class="n">data</span><span class="p">,</span> <span class="n">path</span><span class="p">,</span> <span class="n">digit_allowed</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Access nested data using a dot-separated path.</span>
+
+<span class="sd">    :param data: A dictionary or a list to access the nested data from.</span>
+<span class="sd">    :param path: A dot-separated string representing the path to access.</span>
+<span class="sd">                    This can include numeric indices when accessing list</span>
+<span class="sd">                    elements.</span>
+<span class="sd">    :param digit_allowed: Allow transfering string to digit.</span>
+<span class="sd">    :return: The value located at the specified path, or raises a KeyError</span>
+<span class="sd">                or IndexError if the path does not exist.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">keys</span> <span class="o">=</span> <span class="n">path</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">:</span>
+        <span class="c1"># Convert string keys to integers if they are numeric</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">key</span><span class="p">)</span> <span class="k">if</span> <span class="n">key</span><span class="o">.</span><span class="n">isdigit</span><span class="p">()</span> <span class="ow">and</span> <span class="n">digit_allowed</span> <span class="k">else</span> <span class="n">key</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">data</span> <span class="o">=</span> <span class="n">data</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unaccessible dot-separated path: </span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">!&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">None</span>
+    <span class="k">return</span> <span class="n">data</span></div>
+
+
+
+<div class="viewcode-block" id="nested_set">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.nested_set">[docs]</a>
+<span class="k">def</span> <span class="nf">nested_set</span><span class="p">(</span><span class="n">data</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="n">path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">val</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Set the val to the nested data in the dot-separated path.</span>
+
+<span class="sd">        :param data: A dictionary with nested format.</span>
+<span class="sd">        :param path: A dot-separated string representing the path to set.</span>
+<span class="sd">                    This can include numeric indices when setting list</span>
+<span class="sd">                    elements.</span>
+<span class="sd">        :return: The nested data after the val set.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">keys</span> <span class="o">=</span> <span class="n">path</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span>
+    <span class="n">cur</span> <span class="o">=</span> <span class="n">data</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">keys</span><span class="p">[:</span><span class="o">-</span><span class="mi">1</span><span class="p">]:</span>
+        <span class="k">if</span> <span class="n">key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">cur</span><span class="p">:</span>
+            <span class="n">cur</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">cur</span> <span class="o">=</span> <span class="n">cur</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+    <span class="n">cur</span><span class="p">[</span><span class="n">keys</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]]</span> <span class="o">=</span> <span class="n">val</span>
+    <span class="k">return</span> <span class="n">data</span></div>
+
+
+
+<div class="viewcode-block" id="is_string_list">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.is_string_list">[docs]</a>
+<span class="k">def</span> <span class="nf">is_string_list</span><span class="p">(</span><span class="n">var</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        return if the var is list of string.</span>
+
+<span class="sd">        :param var: input variance</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">var</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">all</span><span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">it</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="k">for</span> <span class="n">it</span> <span class="ow">in</span> <span class="n">var</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="avg_split_string_list_under_limit">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.avg_split_string_list_under_limit">[docs]</a>
+<span class="k">def</span> <span class="nf">avg_split_string_list_under_limit</span><span class="p">(</span><span class="n">str_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">,</span>
+                                      <span class="n">token_nums</span><span class="p">:</span> <span class="nb">list</span><span class="p">,</span>
+                                      <span class="n">max_token_num</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Split the string list to several sub str_list, such that the total</span>
+<span class="sd">        token num of each sub string list is less than max_token_num, keeping</span>
+<span class="sd">        the total token nums of sub string lists are similar.</span>
+
+<span class="sd">        :param str_list: input string list.</span>
+<span class="sd">        :param token_nums: token num of each string list.</span>
+<span class="sd">        :param max_token_num: max token num of each sub string list.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">max_token_num</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">str_list</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">str_list</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">token_nums</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;The length of str_list and token_nums must be equal!&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">str_list</span><span class="p">]</span>
+
+    <span class="n">total_num</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">token_nums</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">total_num</span> <span class="o">&lt;=</span> <span class="n">max_token_num</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">[</span><span class="n">str_list</span><span class="p">]</span>
+
+    <span class="n">group_num</span> <span class="o">=</span> <span class="n">total_num</span> <span class="o">//</span> <span class="n">max_token_num</span> <span class="o">+</span> <span class="mi">1</span>
+    <span class="n">avg_num</span> <span class="o">=</span> <span class="n">total_num</span> <span class="o">/</span> <span class="n">group_num</span>
+    <span class="n">res</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">cur_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">cur_sum</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="k">for</span> <span class="n">text</span><span class="p">,</span> <span class="n">token_num</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">str_list</span><span class="p">,</span> <span class="n">token_nums</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">token_num</span> <span class="o">&gt;</span> <span class="n">max_token_num</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="s1">&#39;Token num is greater than max_token_num in one sample!&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cur_sum</span> <span class="o">+</span> <span class="n">token_num</span> <span class="o">&gt;</span> <span class="n">max_token_num</span> <span class="ow">and</span> <span class="n">cur_list</span><span class="p">:</span>
+            <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_list</span><span class="p">)</span>
+            <span class="n">cur_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">cur_sum</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">cur_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">text</span><span class="p">)</span>
+        <span class="n">cur_sum</span> <span class="o">+=</span> <span class="n">token_num</span>
+        <span class="k">if</span> <span class="n">cur_sum</span> <span class="o">&gt;</span> <span class="n">avg_num</span><span class="p">:</span>
+            <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_list</span><span class="p">)</span>
+            <span class="n">cur_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">cur_sum</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="k">if</span> <span class="n">cur_list</span><span class="p">:</span>
+        <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">cur_list</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">res</span></div>
+
+
+
+<div class="viewcode-block" id="is_float">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.common_utils.is_float">[docs]</a>
+<span class="k">def</span> <span class="nf">is_float</span><span class="p">(</span><span class="n">s</span><span class="p">):</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="nb">float</span><span class="p">(</span><span class="n">s</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">True</span>
+    <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">False</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/compress.html b/_modules/data_juicer/utils/compress.html
new file mode 100644
index 000000000..b16e5248b
--- /dev/null
+++ b/_modules/data_juicer/utils/compress.html
@@ -0,0 +1,690 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.compress &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.compress</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.compress</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">re</span>
+<span class="kn">import</span> <span class="nn">shutil</span>
+<span class="kn">from</span> <span class="nn">abc</span> <span class="kn">import</span> <span class="n">ABC</span><span class="p">,</span> <span class="n">abstractmethod</span>
+<span class="kn">from</span> <span class="nn">multiprocessing</span> <span class="kn">import</span> <span class="n">Pool</span>
+<span class="kn">from</span> <span class="nn">pathlib</span> <span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Type</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Dataset</span>
+<span class="kn">from</span> <span class="nn">datasets.utils.extract</span> <span class="kn">import</span> <span class="n">Extractor</span> <span class="k">as</span> <span class="n">HF_Extractor</span>
+<span class="kn">from</span> <span class="nn">datasets.utils.filelock</span> <span class="kn">import</span> <span class="n">FileLock</span> <span class="k">as</span> <span class="n">HF_FileLock</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils</span> <span class="kn">import</span> <span class="n">cache_utils</span>
+
+
+<div class="viewcode-block" id="FileLock">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.FileLock">[docs]</a>
+<span class="k">class</span> <span class="nc">FileLock</span><span class="p">(</span><span class="n">HF_FileLock</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    File lock for compresssion or decompression, and</span>
+<span class="sd">    remove lock file automatically.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">_release</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">_release</span><span class="p">()</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="c1"># logger.debug(f&#39;Remove {self._lock_file}&#39;)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_lock_file</span><span class="p">)</span>
+        <span class="c1"># The file is already deleted and that&#39;s what we want.</span>
+        <span class="k">except</span> <span class="ne">OSError</span><span class="p">:</span>
+            <span class="k">pass</span>
+        <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="Extractor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Extractor">[docs]</a>
+<span class="k">class</span> <span class="nc">Extractor</span><span class="p">(</span><span class="n">HF_Extractor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract content from a compressed file.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Extractor.extract">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Extractor.extract">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">extract</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">extractor_format</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Extract content from a compressed file.</span>
+
+<span class="sd">        :param input_path: path to compressed file.</span>
+<span class="sd">        :param output_path: path to uncompressed file.</span>
+<span class="sd">        :param extractor_format: extraction format,</span>
+<span class="sd">            see supported algorithm in `Extractor` of huggingface dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">output_path</span><span class="p">),</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="c1"># Prevent parallel extractions</span>
+        <span class="n">lock_path</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">output_path</span><span class="p">)</span><span class="o">.</span><span class="n">with_suffix</span><span class="p">(</span><span class="s1">&#39;.lock&#39;</span><span class="p">))</span>
+        <span class="k">with</span> <span class="n">FileLock</span><span class="p">(</span><span class="n">lock_path</span><span class="p">):</span>
+            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">extractor</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">extractors</span><span class="p">[</span><span class="n">extractor_format</span><span class="p">]</span>
+            <span class="k">return</span> <span class="n">extractor</span><span class="o">.</span><span class="n">extract</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="BaseCompressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor">[docs]</a>
+<span class="k">class</span> <span class="nc">BaseCompressor</span><span class="p">(</span><span class="n">ABC</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Base class that compresses a file.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="BaseCompressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="o">...</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="ZstdCompressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor">[docs]</a>
+<span class="k">class</span> <span class="nc">ZstdCompressor</span><span class="p">(</span><span class="n">BaseCompressor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class compresses a file using the `zstd` algorithm.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="ZstdCompressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="kn">import</span> <span class="nn">zstandard</span> <span class="k">as</span> <span class="nn">zstd</span>
+
+        <span class="n">cctx</span> <span class="o">=</span> <span class="n">zstd</span><span class="o">.</span><span class="n">ZstdCompressor</span><span class="p">()</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">ifh</span><span class="p">,</span> <span class="nb">open</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">ofh</span><span class="p">:</span>
+            <span class="n">cctx</span><span class="o">.</span><span class="n">copy_stream</span><span class="p">(</span><span class="n">ifh</span><span class="p">,</span> <span class="n">ofh</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Lz4Compressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor">[docs]</a>
+<span class="k">class</span> <span class="nc">Lz4Compressor</span><span class="p">(</span><span class="n">BaseCompressor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class compresses a file using the `lz4` algorithm.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Lz4Compressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress a input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">import</span> <span class="nn">lz4.frame</span>
+
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">input_file</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">lz4</span><span class="o">.</span><span class="n">frame</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">compressed_file</span><span class="p">:</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">copyfileobj</span><span class="p">(</span><span class="n">input_file</span><span class="p">,</span> <span class="n">compressed_file</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="GzipCompressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor">[docs]</a>
+<span class="k">class</span> <span class="nc">GzipCompressor</span><span class="p">(</span><span class="n">BaseCompressor</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class compresses a file using the `gzip` algorithm.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GzipCompressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor.compress">[docs]</a>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span> <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">import</span> <span class="nn">gzip</span>
+
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">input_file</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">gzip</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">compressed_file</span><span class="p">:</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">copyfileobj</span><span class="p">(</span><span class="n">input_file</span><span class="p">,</span> <span class="n">compressed_file</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="Compressor">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Compressor">[docs]</a>
+<span class="k">class</span> <span class="nc">Compressor</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class that contains multiple compressors.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">compressors</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Type</span><span class="p">[</span><span class="n">BaseCompressor</span><span class="p">]]</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;gzip&#39;</span><span class="p">:</span> <span class="n">GzipCompressor</span><span class="p">,</span>
+        <span class="c1"># &quot;zip&quot;: ZipCompressor,</span>
+        <span class="c1"># &quot;xz&quot;: XzCompressor,</span>
+        <span class="c1"># &quot;rar&quot;: RarCompressor,</span>
+        <span class="s1">&#39;zstd&#39;</span><span class="p">:</span> <span class="n">ZstdCompressor</span><span class="p">,</span>
+        <span class="c1"># &quot;bz2&quot;: Bzip2Compressor,</span>
+        <span class="c1"># &quot;7z&quot;: SevenZipCompressor,</span>
+        <span class="s1">&#39;lz4&#39;</span><span class="p">:</span> <span class="n">Lz4Compressor</span><span class="p">,</span>
+    <span class="p">}</span>
+
+<div class="viewcode-block" id="Compressor.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.Compressor.compress">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        :param compressor_format: compression format,</span>
+<span class="sd">            see supported algorithm in `compressors`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">assert</span> <span class="n">compressor_format</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">compressors</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">output_path</span><span class="p">),</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="c1"># Prevent parallel extractions</span>
+        <span class="n">lock_path</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">Path</span><span class="p">(</span><span class="n">output_path</span><span class="p">)</span><span class="o">.</span><span class="n">with_suffix</span><span class="p">(</span><span class="s1">&#39;.lock&#39;</span><span class="p">))</span>
+        <span class="k">with</span> <span class="n">FileLock</span><span class="p">(</span><span class="n">lock_path</span><span class="p">):</span>
+            <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">output_path</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">compressor</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">compressors</span><span class="p">[</span><span class="n">compressor_format</span><span class="p">]</span>
+            <span class="n">compressor</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CompressManager">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager">[docs]</a>
+<span class="k">class</span> <span class="nc">CompressManager</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to compress or decompress a input file</span>
+<span class="sd">    using compression format algorithms.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="CompressManager.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param compressor_format: compression format algorithms,</span>
+<span class="sd">            default `zstd`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">assert</span> <span class="n">compressor_format</span> <span class="ow">in</span> <span class="n">Compressor</span><span class="o">.</span><span class="n">compressors</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span> <span class="o">=</span> <span class="n">compressor_format</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor</span> <span class="o">=</span> <span class="n">Compressor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span></div>
+
+
+<div class="viewcode-block" id="CompressManager.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress">[docs]</a>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to uncompressed file.</span>
+<span class="sd">        :param output_path: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span>
+                                 <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CompressManager.decompress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress">[docs]</a>
+    <span class="k">def</span> <span class="nf">decompress</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+        <span class="n">output_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">],</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Decompress input file and save to output file.</span>
+
+<span class="sd">        :param input_path: path to compressed file.</span>
+<span class="sd">        :param output_path: path to uncompressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extractor</span><span class="o">.</span><span class="n">extract</span><span class="p">(</span><span class="n">input_path</span><span class="p">,</span> <span class="n">output_path</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CacheCompressManager">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager">[docs]</a>
+<span class="k">class</span> <span class="nc">CacheCompressManager</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    This class is used to compress or decompress huggingface cache files</span>
+<span class="sd">    using compression format algorithms.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="CacheCompressManager.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">compressor_format</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;zstd&#39;</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param compressor_format: compression format algorithms,</span>
+<span class="sd">            default `zstd`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span> <span class="o">=</span> <span class="n">compressor_format</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span> <span class="o">=</span> <span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">compressor_format</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span> <span class="o">=</span> <span class="n">CompressManager</span><span class="p">(</span>
+            <span class="n">compressor_format</span><span class="o">=</span><span class="n">compressor_format</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pattern</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="sa">r</span><span class="s1">&#39;_\d</span><span class="si">{5}</span><span class="s1">_of_&#39;</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span> <span class="nf">_get_raw_filename</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get a uncompressed file name from a compressed file.</span>
+<span class="sd">        :param filename: path to compressed file.</span>
+<span class="sd">        :return: path to uncompressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">filename</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_format</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">filename</span><span class="p">)[:</span><span class="o">-</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span><span class="p">)]</span>
+
+    <span class="k">def</span> <span class="nf">_get_compressed_filename</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Path</span><span class="p">,</span> <span class="nb">str</span><span class="p">]):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get a compressed file name from a uncompressed file.</span>
+<span class="sd">        :param filename: path to uncompressed file.</span>
+<span class="sd">        :return: path to compressed file.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="nb">str</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span>
+
+    <span class="k">def</span> <span class="nf">_get_cache_directory</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get dataset cache directory.</span>
+<span class="sd">        :param ds: input dataset.</span>
+<span class="sd">        :return: dataset cache directory.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">current_cache_files</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">cache_file</span><span class="p">[</span><span class="s1">&#39;filename&#39;</span><span class="p">])</span>
+            <span class="k">for</span> <span class="n">cache_file</span> <span class="ow">in</span> <span class="n">ds</span><span class="o">.</span><span class="n">cache_files</span>
+        <span class="p">]</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">current_cache_files</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">None</span>
+        <span class="n">cache_directory</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">current_cache_files</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">cache_directory</span>
+
+    <span class="k">def</span> <span class="nf">_get_cache_file_names</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                              <span class="n">cache_directory</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+                              <span class="n">fingerprints</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                              <span class="n">extension</span><span class="o">=</span><span class="s1">&#39;.arrow&#39;</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get all cache files in the dataset cache directory with fingerprints,</span>
+<span class="sd">        which ends with specified extension.</span>
+
+<span class="sd">        :param cache_directory: dataset cache directory.</span>
+<span class="sd">        :param fingerprints: fingerprints of cache files. String or List are</span>
+<span class="sd">            accepted. If `None`, we will find all cache files which starts with</span>
+<span class="sd">            `cache-` and ends with specified extension.</span>
+<span class="sd">        :param extension: extension of cache files, default `.arrow`</span>
+<span class="sd">        :return: list of file names</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">cache_directory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">fingerprints</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">fingerprints</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;&#39;</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">fingerprints</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">fingerprints</span> <span class="o">=</span> <span class="p">[</span><span class="n">fingerprints</span><span class="p">]</span>
+
+        <span class="n">files</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">listdir</span><span class="p">(</span><span class="n">cache_directory</span><span class="p">)</span>
+        <span class="n">f_names</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">f_name</span> <span class="ow">in</span> <span class="n">files</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">fingerprint</span> <span class="ow">in</span> <span class="n">fingerprints</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">f_name</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;cache-</span><span class="si">{</span><span class="n">fingerprint</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span> \
+                        <span class="ow">and</span> <span class="n">f_name</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="n">extension</span><span class="p">):</span>
+                    <span class="n">f_names</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">f_name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">f_names</span>
+
+<div class="viewcode-block" id="CacheCompressManager.compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress">[docs]</a>
+    <span class="k">def</span> <span class="nf">compress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">prev_ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
+                 <span class="n">this_ds</span><span class="p">:</span> <span class="n">Dataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                 <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Compress cache files with fingerprint in dataset cache directory.</span>
+
+<span class="sd">        :param prev_ds: previous dataset whose cache files need to be</span>
+<span class="sd">            compressed here.</span>
+<span class="sd">        :param this_ds: Current dataset that is computed from the previous</span>
+<span class="sd">            dataset. There might be overlaps between cache files of them, so we</span>
+<span class="sd">            must not compress cache files that will be used again in the</span>
+<span class="sd">            current dataset. If it&#39;s None, it means all cache files of previous</span>
+<span class="sd">            dataset should be compressed.</span>
+<span class="sd">        :param num_proc: number of processes to compress cache files.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># remove cache files from the list of cache files to be compressed</span>
+        <span class="n">prev_cache_names</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;filename&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">prev_ds</span><span class="o">.</span><span class="n">cache_files</span><span class="p">]</span>
+        <span class="n">this_cache_names</span> <span class="o">=</span> <span class="p">[</span><span class="n">item</span><span class="p">[</span><span class="s1">&#39;filename&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">this_ds</span><span class="o">.</span><span class="n">cache_files</span><span class="p">]</span> \
+            <span class="k">if</span> <span class="n">this_ds</span> <span class="k">else</span> <span class="p">[]</span>
+        <span class="n">caches_to_compress</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span>
+            <span class="nb">set</span><span class="p">(</span><span class="n">prev_cache_names</span><span class="p">)</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span><span class="n">this_cache_names</span><span class="p">))</span>
+
+        <span class="n">files_to_remove</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">files_printed</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span> <span class="o">=</span> <span class="n">Pool</span><span class="p">(</span><span class="n">num_proc</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">full_name</span> <span class="ow">in</span> <span class="n">caches_to_compress</span><span class="p">:</span>
+            <span class="c1"># ignore the cache file of the original dataset and only consider</span>
+            <span class="c1"># the cache files of following OPs</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;cache-&#39;</span><span class="p">):</span>
+                <span class="k">continue</span>
+            <span class="c1"># If there are no specified cache files, just skip</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">full_name</span><span class="p">):</span>
+                <span class="k">continue</span>
+            <span class="n">compress_filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_compressed_filename</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+            <span class="n">formatted_cache_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_cache_file_name</span><span class="p">(</span>
+                <span class="n">compress_filename</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">compress_filename</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s1">&#39;Compressing cache file to </span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">pool</span><span class="o">.</span><span class="n">apply_async</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">compress</span><span class="p">,</span>
+                                     <span class="n">args</span><span class="o">=</span><span class="p">(</span>
+                                         <span class="n">full_name</span><span class="p">,</span>
+                                         <span class="n">compress_filename</span><span class="p">,</span>
+                                     <span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span><span class="n">full_name</span><span class="p">,</span>
+                                                   <span class="n">compress_filename</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s1">&#39;Found compressed cache file </span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">files_printed</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">formatted_cache_name</span><span class="p">)</span>
+            <span class="n">files_to_remove</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+
+        <span class="c1"># clean up raw cache file</span>
+        <span class="k">for</span> <span class="n">file_path</span> <span class="ow">in</span> <span class="n">files_to_remove</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Removing cache file </span><span class="si">{</span><span class="n">file_path</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">file_path</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="CacheCompressManager.decompress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress">[docs]</a>
+    <span class="k">def</span> <span class="nf">decompress</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                   <span class="n">ds</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
+                   <span class="n">fingerprints</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                   <span class="n">num_proc</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Decompress compressed cache files with fingerprint in</span>
+<span class="sd">        dataset cache directory.</span>
+
+<span class="sd">        :param ds: input dataset.</span>
+<span class="sd">        :param fingerprints: fingerprintd of cache files. String or List are</span>
+<span class="sd">            accepted. If `None`, we will find all cache files which starts with</span>
+<span class="sd">            `cache-` and ends with compression format.</span>
+<span class="sd">        :param num_proc: number of processes to decompress cache files.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">cache_directory</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_directory</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cache_directory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span>
+
+        <span class="c1"># find compressed cache files with given fingerprints</span>
+        <span class="n">f_names</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_file_names</span><span class="p">(</span>
+            <span class="n">cache_directory</span><span class="o">=</span><span class="n">cache_directory</span><span class="p">,</span>
+            <span class="n">fingerprints</span><span class="o">=</span><span class="n">fingerprints</span><span class="p">,</span>
+            <span class="n">extension</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span><span class="p">)</span>
+        <span class="n">files_printed</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span> <span class="o">=</span> <span class="n">Pool</span><span class="p">(</span><span class="n">num_proc</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">f_name</span> <span class="ow">in</span> <span class="n">f_names</span><span class="p">:</span>
+            <span class="n">full_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cache_directory</span><span class="p">,</span> <span class="n">f_name</span><span class="p">))</span>
+            <span class="n">raw_filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_raw_filename</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+            <span class="n">formatted_cache_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_cache_file_name</span><span class="p">(</span><span class="n">raw_filename</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">raw_filename</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Decompressing cache file to &#39;</span>
+                                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                    <span class="n">files_printed</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">formatted_cache_name</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">pool</span><span class="o">.</span><span class="n">apply_async</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">decompress</span><span class="p">,</span>
+                                     <span class="n">args</span><span class="o">=</span><span class="p">(</span>
+                                         <span class="n">full_name</span><span class="p">,</span>
+                                         <span class="n">raw_filename</span><span class="p">,</span>
+                                     <span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">compress_manager</span><span class="o">.</span><span class="n">decompress</span><span class="p">(</span><span class="n">full_name</span><span class="p">,</span> <span class="n">raw_filename</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Found uncompressed cache files &#39;</span>
+                                 <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+            <span class="n">pool</span><span class="o">.</span><span class="n">join</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="CacheCompressManager.format_cache_file_name">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name">[docs]</a>
+    <span class="k">def</span> <span class="nf">format_cache_file_name</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span> <span class="n">cache_file_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Use `*` to replace the sub rank in a cache file name.</span>
+<span class="sd">        :param cache_file_name: a cache file name.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">cache_file_name</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">cache_file_name</span>
+
+        <span class="n">cache_file_name</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">sub</span><span class="p">(</span><span class="n">pattern</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">pattern</span><span class="p">,</span>
+                                 <span class="n">repl</span><span class="o">=</span><span class="sa">r</span><span class="s1">&#39;_*_of_&#39;</span><span class="p">,</span>
+                                 <span class="n">string</span><span class="o">=</span><span class="n">cache_file_name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">cache_file_name</span></div>
+
+
+<div class="viewcode-block" id="CacheCompressManager.cleanup_cache_files">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">[docs]</a>
+    <span class="k">def</span> <span class="nf">cleanup_cache_files</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">ds</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Clean up all compressed cache files in dataset cache directory,</span>
+<span class="sd">        which starts with `cache-` and ends with compression format</span>
+<span class="sd">        :param ds: input dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">cache_directory</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_directory</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">cache_directory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span>
+        <span class="n">f_names</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_cache_file_names</span><span class="p">(</span>
+            <span class="n">cache_directory</span><span class="o">=</span><span class="n">cache_directory</span><span class="p">,</span>
+            <span class="n">extension</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">compressor_extension</span><span class="p">)</span>
+        <span class="n">files_printed</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">f_name</span> <span class="ow">in</span> <span class="n">f_names</span><span class="p">:</span>
+            <span class="n">full_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">abspath</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">cache_directory</span><span class="p">,</span> <span class="n">f_name</span><span class="p">))</span>
+            <span class="n">formatted_cache_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_cache_file_name</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">formatted_cache_name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">files_printed</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Clean up cache file </span><span class="si">{</span><span class="n">formatted_cache_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">files_printed</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">formatted_cache_name</span><span class="p">)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">full_name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="n">f_names</span><span class="p">)</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="CompressionOff">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.CompressionOff">[docs]</a>
+<span class="k">class</span> <span class="nc">CompressionOff</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that turn off the cache compression temporarily.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Record the original cache compression method and turn it off.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span> <span class="nn">.</span> <span class="kn">import</span> <span class="n">cache_utils</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">original_cache_compress</span> <span class="o">=</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span>
+        <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Restore the original cache compression method.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span> <span class="nn">.</span> <span class="kn">import</span> <span class="n">cache_utils</span>
+        <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">original_cache_compress</span></div>
+
+
+
+<div class="viewcode-block" id="compress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.compress">[docs]</a>
+<span class="k">def</span> <span class="nf">compress</span><span class="p">(</span><span class="n">prev_ds</span><span class="p">,</span> <span class="n">this_ds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
+        <span class="n">CacheCompressManager</span><span class="p">(</span><span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">)</span><span class="o">.</span><span class="n">compress</span><span class="p">(</span>
+            <span class="n">prev_ds</span><span class="p">,</span> <span class="n">this_ds</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="decompress">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.decompress">[docs]</a>
+<span class="k">def</span> <span class="nf">decompress</span><span class="p">(</span><span class="n">ds</span><span class="p">,</span> <span class="n">fingerprints</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">num_proc</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">:</span>
+        <span class="n">CacheCompressManager</span><span class="p">(</span><span class="n">cache_utils</span><span class="o">.</span><span class="n">CACHE_COMPRESS</span><span class="p">)</span><span class="o">.</span><span class="n">decompress</span><span class="p">(</span>
+            <span class="n">ds</span><span class="p">,</span> <span class="n">fingerprints</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="cleanup_compressed_cache_files">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.compress.cleanup_compressed_cache_files">[docs]</a>
+<span class="k">def</span> <span class="nf">cleanup_compressed_cache_files</span><span class="p">(</span><span class="n">ds</span><span class="p">):</span>
+    <span class="n">CacheCompressManager</span><span class="p">()</span><span class="o">.</span><span class="n">cleanup_cache_files</span><span class="p">(</span><span class="n">ds</span><span class="p">)</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/constant.html b/_modules/data_juicer/utils/constant.html
new file mode 100644
index 000000000..89b100aa5
--- /dev/null
+++ b/_modules/data_juicer/utils/constant.html
@@ -0,0 +1,399 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.constant &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.constant</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.constant</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">import</span> <span class="nn">inspect</span>
+<span class="kn">import</span> <span class="nn">io</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">from</span> <span class="nn">enum</span> <span class="kn">import</span> <span class="n">Enum</span>
+
+<span class="kn">import</span> <span class="nn">zstandard</span> <span class="k">as</span> <span class="nn">zstd</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="n">DEFAULT_PREFIX</span> <span class="o">=</span> <span class="s1">&#39;__dj__&#39;</span>
+
+
+<div class="viewcode-block" id="Fields">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.Fields">[docs]</a>
+<span class="k">class</span> <span class="nc">Fields</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="n">stats</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;stats__&#39;</span>
+    <span class="n">meta</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;meta__&#39;</span>
+    <span class="n">context</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;context__&#39;</span>
+    <span class="n">suffix</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;suffix__&#39;</span>
+
+    <span class="c1"># tags in meta</span>
+    <span class="c1"># video_frame_tags</span>
+    <span class="n">video_frame_tags</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;video_frame_tags__&#39;</span>
+    <span class="c1"># video_audio_tags</span>
+    <span class="n">video_audio_tags</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;video_audio_tags__&#39;</span>
+    <span class="c1"># image_tags</span>
+    <span class="n">image_tags</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;image_tags__&#39;</span>
+
+    <span class="c1"># video_frames</span>
+    <span class="n">video_frames</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;video_frames__&#39;</span>
+
+    <span class="c1"># the name of the original file from which this sample was derived.</span>
+    <span class="n">source_file</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;source_file__&#39;</span>
+
+    <span class="c1"># the name of directory to store the produced multimodal data</span>
+    <span class="n">multimodal_data_output_dir</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;produced_data__&#39;</span>
+
+    <span class="c1"># field names for info extraction</span>
+    <span class="n">event_description</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;event_description__&#39;</span>
+    <span class="c1"># # a list of characters relevant to the event</span>
+    <span class="n">relevant_characters</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relevant_characters__&#39;</span>
+    <span class="c1"># # the given main entities for attribute extraction</span>
+    <span class="n">main_entities</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;main_entities__&#39;</span>
+    <span class="c1"># # the given attributes to be extracted</span>
+    <span class="n">attributes</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;attributes__&#39;</span>
+    <span class="c1"># # the extracted attribute descriptions</span>
+    <span class="n">attribute_descriptions</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;attribute_descriptions__&#39;</span>
+    <span class="c1"># # extract from raw datas for support the attribute</span>
+    <span class="n">attribute_support_texts</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;attribute_support_texts__&#39;</span>
+    <span class="c1"># # the nickname relationship</span>
+    <span class="n">nickname</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;nickname__&#39;</span>
+    <span class="c1"># # the entity for knowledge graph</span>
+    <span class="n">entity</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;entity__&#39;</span>
+    <span class="c1"># # # the name of entity</span>
+    <span class="n">entity_name</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;entity_name__&#39;</span>
+    <span class="c1"># # # the type of entity</span>
+    <span class="n">entity_type</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;entity_type__&#39;</span>
+    <span class="c1"># # # the description of entity</span>
+    <span class="n">entity_description</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;entity_entity_description__&#39;</span>
+    <span class="c1"># # the relationship for knowledge graph</span>
+    <span class="n">relation</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relation__&#39;</span>
+    <span class="c1"># # # the source entity of the relation</span>
+    <span class="n">source_entity</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relation_source_entity__&#39;</span>
+    <span class="c1"># # # the target entity of the relation</span>
+    <span class="n">target_entity</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relation_target_entity__&#39;</span>
+    <span class="c1"># # # the description of the relation</span>
+    <span class="n">relation_description</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relation_description__&#39;</span>
+    <span class="c1"># # # the keywords of the relation</span>
+    <span class="n">relation_keywords</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relation_keywords__&#39;</span>
+    <span class="c1"># # # the strength of the relation</span>
+    <span class="n">relation_strength</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;relation_strength__&#39;</span>
+    <span class="c1"># # the keyword in a text</span>
+    <span class="n">keyword</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;keyword__&#39;</span>
+    <span class="c1"># # support text</span>
+    <span class="n">support_text</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;support_text__&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="StatsKeysMeta">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta">[docs]</a>
+<span class="k">class</span> <span class="nc">StatsKeysMeta</span><span class="p">(</span><span class="nb">type</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    a helper class to track the mapping from OP&#39;s name to its used stats_keys</span>
+
+<span class="sd">    e.g., # once the AlphanumericFilter&#39;s compute_stats method has been called</span>
+<span class="sd">    res = TrackingDescriptor.get_access_log()</span>
+<span class="sd">    print(res) # {&quot;AlphanumericFilter&quot;: [&quot;alnum_ratio&quot;, &quot;alpha_token_ratio&quot;]}</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">_accessed_by</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">def</span> <span class="fm">__getattr__</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">attr</span><span class="p">):</span>
+        <span class="n">caller_class</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span><span class="o">.</span><span class="n">f_globals</span><span class="p">[</span><span class="s1">&#39;__name__&#39;</span><span class="p">]</span>
+        <span class="c1"># no need to track the parent classes</span>
+        <span class="n">caller_class</span> <span class="o">=</span> <span class="n">caller_class</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">stat_key</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">cls</span><span class="o">.</span><span class="n">_constants_class</span><span class="p">,</span> <span class="n">attr</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">caller_class</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">:</span>
+            <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">[</span><span class="n">caller_class</span><span class="p">]</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">stat_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">[</span><span class="n">caller_class</span><span class="p">]:</span>
+            <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">[</span><span class="n">caller_class</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">stat_key</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">stat_key</span>
+
+<div class="viewcode-block" id="StatsKeysMeta.get_access_log">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta.get_access_log">[docs]</a>
+    <span class="k">def</span> <span class="nf">get_access_log</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">dj_cfg</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span>
+        <span class="k">elif</span> <span class="n">dj_cfg</span><span class="p">:</span>
+            <span class="n">tmp_dj_cfg</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">dj_cfg</span><span class="p">)</span>
+            <span class="c1"># the access has been skipped due to the use of cache</span>
+            <span class="c1"># we will using a temp data sample to get the access log</span>
+            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">)</span> <span class="ow">and</span> \
+                    <span class="p">(</span><span class="s1">&#39;jsonl&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span> <span class="ow">or</span>
+                     <span class="s1">&#39;jsonl.zst&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="s1">&#39;Begin to track the usage of ops with a dummy data sample&#39;</span><span class="p">)</span>
+
+                <span class="c1"># load the first line as tmp_data</span>
+                <span class="n">tmp_f_name</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="n">first_line</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="k">if</span> <span class="s1">&#39;jsonl.zst&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">:</span>
+                    <span class="n">tmp_f_name</span> <span class="o">=</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="o">.</span> \
+                        <span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.jsonl.zst&#39;</span><span class="p">,</span> <span class="s1">&#39;.tmp.jsonl&#39;</span><span class="p">)</span>
+                    <span class="c1"># Open the file in binary mode and</span>
+                    <span class="c1"># create a Zstandard decompression context</span>
+                    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">compressed_file</span><span class="p">:</span>
+                        <span class="n">dctx</span> <span class="o">=</span> <span class="n">zstd</span><span class="o">.</span><span class="n">ZstdDecompressor</span><span class="p">()</span>
+                        <span class="c1"># Create a stream reader for the file and decode the</span>
+                        <span class="c1"># first line</span>
+                        <span class="k">with</span> <span class="n">dctx</span><span class="o">.</span><span class="n">stream_reader</span><span class="p">(</span><span class="n">compressed_file</span><span class="p">)</span> <span class="k">as</span> <span class="n">reader</span><span class="p">:</span>
+                            <span class="n">text_stream</span> <span class="o">=</span> <span class="n">io</span><span class="o">.</span><span class="n">TextIOWrapper</span><span class="p">(</span><span class="n">reader</span><span class="p">,</span>
+                                                           <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+                            <span class="n">first_line</span> <span class="o">=</span> <span class="n">text_stream</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span>
+                <span class="k">elif</span> <span class="s1">&#39;jsonl&#39;</span> <span class="ow">in</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">:</span>
+                    <span class="n">tmp_f_name</span> <span class="o">=</span> <span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="o">.</span> \
+                        <span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.jsonl&#39;</span><span class="p">,</span> <span class="s1">&#39;.tmp.jsonl&#39;</span><span class="p">)</span>
+                    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">orig_file</span><span class="p">:</span>
+                        <span class="n">first_line</span> <span class="o">=</span> <span class="n">orig_file</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span>
+
+                <span class="k">assert</span> <span class="n">tmp_f_name</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">first_line</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> \
+                    <span class="s1">&#39;error when loading the first line, when &#39;</span> \
+                    <span class="sa">f</span><span class="s1">&#39;dj_cfg.dataset_path=</span><span class="si">{</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="si">}</span><span class="s1">&#39;</span>
+
+                <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">tmp_f_name</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">tmp_file</span><span class="p">:</span>
+                    <span class="n">tmp_file</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">first_line</span><span class="p">)</span>
+
+                <span class="n">tmp_dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span> <span class="o">=</span> <span class="n">tmp_f_name</span>
+                <span class="n">tmp_dj_cfg</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="n">tmp_dj_cfg</span><span class="o">.</span><span class="n">use_checkpoint</span> <span class="o">=</span> <span class="kc">False</span>
+
+                <span class="kn">from</span> <span class="nn">data_juicer.config</span> <span class="kn">import</span> <span class="n">get_init_configs</span>
+                <span class="n">tmp_dj_cfg</span> <span class="o">=</span> <span class="n">get_init_configs</span><span class="p">(</span><span class="n">tmp_dj_cfg</span><span class="p">)</span>
+
+                <span class="kn">from</span> <span class="nn">data_juicer.core</span> <span class="kn">import</span> <span class="n">Analyzer</span>
+                <span class="n">tmp_analyzer</span> <span class="o">=</span> <span class="n">Analyzer</span><span class="p">(</span><span class="n">tmp_dj_cfg</span><span class="p">)</span>
+                <span class="c1"># do not overwrite the true analysis results</span>
+                <span class="n">tmp_analyzer</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">skip_export</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+                <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">tmp_f_name</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;For now, the dummy data is supported for only jsonl type&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;. Please check your config as </span><span class="si">{</span><span class="n">dj_cfg</span><span class="o">.</span><span class="n">dataset_path</span><span class="si">}</span><span class="s1"> is &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;either not existed or in jsonl type.&#39;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">_accessed_by</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="StatsKeysConstant">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant">[docs]</a>
+<span class="k">class</span> <span class="nc">StatsKeysConstant</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1"># text</span>
+    <span class="n">alpha_token_ratio</span> <span class="o">=</span> <span class="s1">&#39;alpha_token_ratio&#39;</span>
+    <span class="n">alnum_ratio</span> <span class="o">=</span> <span class="s1">&#39;alnum_ratio&#39;</span>
+    <span class="n">avg_line_length</span> <span class="o">=</span> <span class="s1">&#39;avg_line_length&#39;</span>
+    <span class="n">char_rep_ratio</span> <span class="o">=</span> <span class="s1">&#39;char_rep_ratio&#39;</span>
+    <span class="n">flagged_words_ratio</span> <span class="o">=</span> <span class="s1">&#39;flagged_words_ratio&#39;</span>
+    <span class="n">lang</span> <span class="o">=</span> <span class="s1">&#39;lang&#39;</span>
+    <span class="n">lang_score</span> <span class="o">=</span> <span class="s1">&#39;lang_score&#39;</span>
+    <span class="n">max_line_length</span> <span class="o">=</span> <span class="s1">&#39;max_line_length&#39;</span>
+    <span class="n">perplexity</span> <span class="o">=</span> <span class="s1">&#39;perplexity&#39;</span>
+    <span class="n">special_char_ratio</span> <span class="o">=</span> <span class="s1">&#39;special_char_ratio&#39;</span>
+    <span class="n">stopwords_ratio</span> <span class="o">=</span> <span class="s1">&#39;stopwords_ratio&#39;</span>
+    <span class="n">text_len</span> <span class="o">=</span> <span class="s1">&#39;text_len&#39;</span>
+    <span class="n">num_action</span> <span class="o">=</span> <span class="s1">&#39;num_action&#39;</span>
+    <span class="n">num_dependency_edges</span> <span class="o">=</span> <span class="s1">&#39;num_dependency_edges&#39;</span>
+    <span class="n">num_token</span> <span class="o">=</span> <span class="s1">&#39;num_token&#39;</span>
+    <span class="n">num_words</span> <span class="o">=</span> <span class="s1">&#39;num_words&#39;</span>
+    <span class="n">word_rep_ratio</span> <span class="o">=</span> <span class="s1">&#39;word_rep_ratio&#39;</span>
+
+    <span class="c1"># image</span>
+    <span class="n">aspect_ratios</span> <span class="o">=</span> <span class="s1">&#39;aspect_ratios&#39;</span>
+    <span class="n">image_width</span> <span class="o">=</span> <span class="s1">&#39;image_width&#39;</span>
+    <span class="n">image_height</span> <span class="o">=</span> <span class="s1">&#39;image_height&#39;</span>
+    <span class="n">image_sizes</span> <span class="o">=</span> <span class="s1">&#39;image_sizes&#39;</span>
+    <span class="n">face_ratios</span> <span class="o">=</span> <span class="s1">&#39;face_ratios&#39;</span>
+    <span class="n">face_detections</span> <span class="o">=</span> <span class="s1">&#39;face_detections&#39;</span>
+    <span class="n">face_counts</span> <span class="o">=</span> <span class="s1">&#39;face_counts&#39;</span>
+    <span class="n">image_aesthetics_scores</span> <span class="o">=</span> <span class="s1">&#39;image_aesthetics_scores&#39;</span>
+    <span class="n">image_nsfw_score</span> <span class="o">=</span> <span class="s1">&#39;image_nsfw_score&#39;</span>
+    <span class="n">image_watermark_prob</span> <span class="o">=</span> <span class="s1">&#39;image_watermark_prob&#39;</span>
+    <span class="n">image_pair_similarity</span> <span class="o">=</span> <span class="s1">&#39;image_pair_similarity&#39;</span>
+
+    <span class="c1"># audios</span>
+    <span class="n">audio_duration</span> <span class="o">=</span> <span class="s1">&#39;audio_duration&#39;</span>
+    <span class="n">audio_nmf_snr</span> <span class="o">=</span> <span class="s1">&#39;audio_nmf_snr&#39;</span>
+    <span class="n">audio_sizes</span> <span class="o">=</span> <span class="s1">&#39;audio_sizes&#39;</span>
+
+    <span class="c1"># videos</span>
+    <span class="n">video_duration</span> <span class="o">=</span> <span class="s1">&#39;video_duration&#39;</span>
+    <span class="n">video_aspect_ratios</span> <span class="o">=</span> <span class="s1">&#39;video_aspect_ratios&#39;</span>
+    <span class="n">video_width</span> <span class="o">=</span> <span class="s1">&#39;video_width&#39;</span>
+    <span class="n">video_height</span> <span class="o">=</span> <span class="s1">&#39;video_height&#39;</span>
+    <span class="n">video_ocr_area_ratio</span> <span class="o">=</span> <span class="s1">&#39;video_ocr_area_ratio&#39;</span>
+    <span class="n">video_aesthetic_score</span> <span class="o">=</span> <span class="s1">&#39;video_aesthetic_score&#39;</span>
+    <span class="n">video_frames_aesthetics_score</span> <span class="o">=</span> <span class="s1">&#39;video_frames_aesthetics_score&#39;</span>
+    <span class="n">video_motion_score</span> <span class="o">=</span> <span class="s1">&#39;video_motion_score&#39;</span>
+    <span class="n">video_nsfw_score</span> <span class="o">=</span> <span class="s1">&#39;video_nsfw_score&#39;</span>
+    <span class="n">video_watermark_prob</span> <span class="o">=</span> <span class="s1">&#39;video_watermark_prob&#39;</span>
+
+    <span class="c1"># multimodal</span>
+    <span class="c1"># image-text</span>
+    <span class="n">image_text_similarity</span> <span class="o">=</span> <span class="s1">&#39;image_text_similarity&#39;</span>
+    <span class="n">image_text_matching_score</span> <span class="o">=</span> <span class="s1">&#39;image_text_matching_score&#39;</span>
+    <span class="n">phrase_grounding_recall</span> <span class="o">=</span> <span class="s1">&#39;phrase_grounding_recall&#39;</span>
+
+    <span class="c1"># video-text</span>
+    <span class="n">video_frames_text_similarity</span> <span class="o">=</span> <span class="s1">&#39;video_frames_text_similarity&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="StatsKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.StatsKeys">[docs]</a>
+<span class="k">class</span> <span class="nc">StatsKeys</span><span class="p">(</span><span class="nb">object</span><span class="p">,</span> <span class="n">metaclass</span><span class="o">=</span><span class="n">StatsKeysMeta</span><span class="p">):</span>
+    <span class="n">_constants_class</span> <span class="o">=</span> <span class="n">StatsKeysConstant</span></div>
+
+
+
+<div class="viewcode-block" id="HashKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.HashKeys">[docs]</a>
+<span class="k">class</span> <span class="nc">HashKeys</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="nb">hash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;hash&#39;</span>
+    <span class="n">minhash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;minhash&#39;</span>
+    <span class="n">simhash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;simhash&#39;</span>
+
+    <span class="c1"># image</span>
+    <span class="n">imagehash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;imagehash&#39;</span>
+
+    <span class="c1"># video</span>
+    <span class="n">videohash</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;videohash&#39;</span>
+
+    <span class="c1"># duplicate flag</span>
+    <span class="n">is_duplicate</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;is_duplicate&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="InterVars">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.InterVars">[docs]</a>
+<span class="k">class</span> <span class="nc">InterVars</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1"># text</span>
+    <span class="n">lines</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;lines&#39;</span>
+    <span class="n">words</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;words&#39;</span>
+    <span class="n">refined_words</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;refined_words&#39;</span>
+
+    <span class="c1"># image</span>
+    <span class="n">loaded_images</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;loaded_images&#39;</span>  <span class="c1"># Image</span>
+
+    <span class="c1"># audios</span>
+    <span class="n">loaded_audios</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;loaded_audios&#39;</span>  <span class="c1"># (data, sampling_rate)</span>
+
+    <span class="c1"># videos</span>
+    <span class="c1"># InputContainer from av.</span>
+    <span class="c1"># Key: {video_path}</span>
+    <span class="n">loaded_videos</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;loaded_videos&#39;</span>
+    <span class="c1"># sampled frames.</span>
+    <span class="c1"># Key: {video_path}-{frame_sampling_method}[-{frame_num}]</span>
+    <span class="c1">#   {frame_num} is only used when {frame_sampling_method} is &quot;uniform&quot;</span>
+    <span class="n">sampled_frames</span> <span class="o">=</span> <span class="n">DEFAULT_PREFIX</span> <span class="o">+</span> <span class="s1">&#39;sampled_frames&#39;</span></div>
+
+
+
+<div class="viewcode-block" id="JobRequiredKeys">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys">[docs]</a>
+<span class="k">class</span> <span class="nc">JobRequiredKeys</span><span class="p">(</span><span class="n">Enum</span><span class="p">):</span>
+    <span class="n">hook</span> <span class="o">=</span> <span class="s1">&#39;hook&#39;</span>
+    <span class="n">dj_configs</span> <span class="o">=</span> <span class="s1">&#39;dj_configs&#39;</span>
+    <span class="n">meta_name</span> <span class="o">=</span> <span class="s1">&#39;meta_name&#39;</span>
+    <span class="n">extra_configs</span> <span class="o">=</span> <span class="s1">&#39;extra_configs&#39;</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/file_utils.html b/_modules/data_juicer/utils/file_utils.html
new file mode 100644
index 000000000..ff806cca4
--- /dev/null
+++ b/_modules/data_juicer/utils/file_utils.html
@@ -0,0 +1,345 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.file_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.file_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.file_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">asyncio</span>
+<span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">re</span>
+<span class="kn">import</span> <span class="nn">shutil</span>
+<span class="kn">from</span> <span class="nn">datetime</span> <span class="kn">import</span> <span class="n">datetime</span><span class="p">,</span> <span class="n">timezone</span>
+<span class="kn">from</span> <span class="nn">pathlib</span> <span class="kn">import</span> <span class="n">Path</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">AsyncGenerator</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">from</span> <span class="nn">datasets.utils.extract</span> <span class="kn">import</span> <span class="n">ZstdExtractor</span> <span class="k">as</span> <span class="n">Extractor</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils.common_utils</span> <span class="kn">import</span> <span class="n">dict_to_hash</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">DEFAULT_PREFIX</span><span class="p">,</span> <span class="n">Fields</span>
+
+
+<div class="viewcode-block" id="follow_read">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.follow_read">[docs]</a>
+<span class="k">async</span> <span class="k">def</span> <span class="nf">follow_read</span><span class="p">(</span>
+    <span class="n">logfile_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="n">skip_existing_content</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AsyncGenerator</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Read a file in online and iterative manner</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        logfile_path (`str`):</span>
+<span class="sd">            The file path to be read.</span>
+<span class="sd">        skip_existing_content (`bool`, defaults to `False):</span>
+<span class="sd">            If True, read from the end, otherwise read from the beginning.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        One line string of the file content.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># in most unix file systems, the read operation is safe</span>
+    <span class="c1"># for a file being target file of another &quot;write process&quot;</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">logfile_path</span><span class="p">,</span> <span class="s1">&#39;r&#39;</span><span class="p">,</span> <span class="n">encoding</span><span class="o">=</span><span class="s1">&#39;utf-8&#39;</span><span class="p">,</span> <span class="n">errors</span><span class="o">=</span><span class="s1">&#39;ignore&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">logfile</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">skip_existing_content</span><span class="p">:</span>
+            <span class="c1"># move to the file&#39;s end, similar to `tail -f`</span>
+            <span class="n">logfile</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+
+        <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+            <span class="n">line</span> <span class="o">=</span> <span class="n">logfile</span><span class="o">.</span><span class="n">readline</span><span class="p">()</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">line</span><span class="p">:</span>
+                <span class="c1"># no new line, wait to avoid CPU override</span>
+                <span class="k">await</span> <span class="n">asyncio</span><span class="o">.</span><span class="n">sleep</span><span class="p">(</span><span class="mf">0.1</span><span class="p">)</span>
+                <span class="k">continue</span>
+            <span class="k">yield</span> <span class="n">line</span></div>
+
+
+
+<div class="viewcode-block" id="find_files_with_suffix">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix">[docs]</a>
+<span class="k">def</span> <span class="nf">find_files_with_suffix</span><span class="p">(</span>
+        <span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">],</span>
+        <span class="n">suffixes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Traverse a path to find all files with the specified suffixes.</span>
+
+<span class="sd">    :param path: path (str/Path): source path</span>
+<span class="sd">    :param suffixes: specified file suffixes, &#39;.txt&#39; or [&#39;.txt&#39;, &#39;.md&#39;]</span>
+<span class="sd">        etc</span>
+<span class="sd">    :return: list of all files with the specified suffixes</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">path</span> <span class="o">=</span> <span class="n">Path</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
+    <span class="n">file_dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">if</span> <span class="n">suffixes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[]</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">suffixes</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffixes</span><span class="p">]</span>
+
+    <span class="n">suffixes</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">x</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">if</span> <span class="n">x</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="s1">&#39;.&#39;</span> <span class="o">+</span> <span class="n">x</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">suffixes</span>
+    <span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">path</span><span class="o">.</span><span class="n">is_file</span><span class="p">():</span>
+        <span class="n">files</span> <span class="o">=</span> <span class="p">[</span><span class="n">path</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">searched_files</span> <span class="o">=</span> <span class="n">path</span><span class="o">.</span><span class="n">rglob</span><span class="p">(</span><span class="s1">&#39;*&#39;</span><span class="p">)</span>
+        <span class="n">files</span> <span class="o">=</span> <span class="p">[</span><span class="n">file</span> <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">searched_files</span> <span class="k">if</span> <span class="n">file</span><span class="o">.</span><span class="n">is_file</span><span class="p">()]</span>
+
+    <span class="n">extractor</span> <span class="o">=</span> <span class="n">Extractor</span>
+
+    <span class="c1"># only keep the file with the specified suffixes</span>
+    <span class="k">for</span> <span class="n">file</span> <span class="ow">in</span> <span class="n">files</span><span class="p">:</span>
+        <span class="n">suffix</span> <span class="o">=</span> <span class="n">file</span><span class="o">.</span><span class="n">suffix</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">extractor</span><span class="o">.</span><span class="n">is_extractable</span><span class="p">(</span><span class="n">file</span><span class="p">):</span>
+
+            <span class="c1"># TODO</span>
+            <span class="c1"># hard code</span>
+            <span class="c1"># only support zstd-format file now,</span>
+            <span class="c1"># and use the last 2 sub-suffixes as the final suffix</span>
+            <span class="c1"># just like &#39;.jsonl.zst&#39;</span>
+            <span class="n">file_suffixes</span> <span class="o">=</span> <span class="p">[</span><span class="n">suffix</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">suffix</span> <span class="ow">in</span> <span class="n">file</span><span class="o">.</span><span class="n">suffixes</span><span class="p">]</span>
+            <span class="n">suffix</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">file_suffixes</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">suffixes</span> <span class="ow">or</span> <span class="p">(</span><span class="n">suffix</span> <span class="ow">in</span> <span class="n">suffixes</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">suffix</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">file_dict</span><span class="p">:</span>
+                <span class="n">file_dict</span><span class="p">[</span><span class="n">suffix</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">)]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">file_dict</span><span class="p">[</span><span class="n">suffix</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">str</span><span class="p">(</span><span class="n">file</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">file_dict</span></div>
+
+
+
+<div class="viewcode-block" id="is_absolute_path">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path">[docs]</a>
+<span class="k">def</span> <span class="nf">is_absolute_path</span><span class="p">(</span><span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Check whether input path is a absolute path.</span>
+
+<span class="sd">    :param path: input path</span>
+<span class="sd">    :return: True means input path is absolute path, False means input</span>
+<span class="sd">        path is a relative path.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">Path</span><span class="p">(</span><span class="n">path</span><span class="p">)</span><span class="o">.</span><span class="n">is_absolute</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="add_suffix_to_filename">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.add_suffix_to_filename">[docs]</a>
+<span class="k">def</span> <span class="nf">add_suffix_to_filename</span><span class="p">(</span><span class="n">filename</span><span class="p">,</span> <span class="n">suffix</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Add a suffix to the filename. Only regard the content after the last dot</span>
+<span class="sd">    as the file extension.</span>
+<span class="sd">    E.g.</span>
+<span class="sd">    1. abc.jpg + &quot;_resized&quot; --&gt; abc_resized.jpg</span>
+<span class="sd">    2. edf.xyz.csv + &quot;_processed&quot; --&gt; edf.xyz_processed.csv</span>
+<span class="sd">    3. /path/to/file.json + &quot;_suf&quot; --&gt; /path/to/file_suf.json</span>
+<span class="sd">    4. ds.tar.gz + &quot;_whoops&quot; --&gt; ds.tar_whoops.gz (maybe unexpected)</span>
+
+<span class="sd">    :param filename: input filename</span>
+<span class="sd">    :param suffix: suffix string to be added</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">name</span><span class="p">,</span> <span class="n">ext</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">filename</span><span class="p">)</span>
+    <span class="n">new_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">name</span><span class="si">}{</span><span class="n">suffix</span><span class="si">}{</span><span class="n">ext</span><span class="si">}</span><span class="s1">&#39;</span>
+    <span class="k">return</span> <span class="n">new_name</span></div>
+
+
+
+<div class="viewcode-block" id="create_directory_if_not_exists">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.create_directory_if_not_exists">[docs]</a>
+<span class="k">def</span> <span class="nf">create_directory_if_not_exists</span><span class="p">(</span><span class="n">directory_path</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        create a directory if not exists, this function is process safe</span>
+
+<span class="sd">        :param directory_path: directory path to be create</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">directory_path</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="k">except</span> <span class="ne">FileExistsError</span><span class="p">:</span>
+        <span class="c1"># We ignore the except from multi processes or threads.</span>
+        <span class="c1"># Just make sure the directory exists.</span>
+        <span class="k">pass</span></div>
+
+
+
+<div class="viewcode-block" id="transfer_filename">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.transfer_filename">[docs]</a>
+<span class="k">def</span> <span class="nf">transfer_filename</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Path</span><span class="p">],</span> <span class="n">op_name</span><span class="p">,</span>
+                      <span class="o">**</span><span class="n">op_kwargs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        According to the op and hashing its parameters &#39;op_kwargs&#39; addition</span>
+<span class="sd">        to the process id and current time as the &#39;hash_val&#39;, map the</span>
+<span class="sd">        original_filepath to another unique file path. E.g.</span>
+
+<span class="sd">            1. abc.jpg --&gt;</span>
+<span class="sd">                __dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val}#.jpg</span>
+<span class="sd">            2. ./abc.jpg --&gt;</span>
+<span class="sd">                ./__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val}#.jpg</span>
+<span class="sd">            3. /path/to/abc.jpg --&gt;</span>
+<span class="sd">                /path/to/__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val}#.jpg</span>
+<span class="sd">            4. /path/to/__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val1}#.jpg --&gt;</span>
+<span class="sd">                /path/to/__dj__produced_data__/{op_name}/</span>
+<span class="sd">                abc__dj_hash_#{hash_val2}#.jpg</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># produce the directory</span>
+    <span class="n">original_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">)</span>
+    <span class="n">dir_token</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;/</span><span class="si">{</span><span class="n">Fields</span><span class="o">.</span><span class="n">multimodal_data_output_dir</span><span class="si">}</span><span class="s1">/&#39;</span>
+    <span class="k">if</span> <span class="n">dir_token</span> <span class="ow">in</span> <span class="n">original_dir</span><span class="p">:</span>
+        <span class="n">original_dir</span> <span class="o">=</span> <span class="n">original_dir</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">dir_token</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">new_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">original_dir</span><span class="p">,</span>
+                           <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">Fields</span><span class="o">.</span><span class="n">multimodal_data_output_dir</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">op_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="n">create_directory_if_not_exists</span><span class="p">(</span><span class="n">new_dir</span><span class="p">)</span>
+
+    <span class="c1"># produce the unique hash code</span>
+    <span class="n">unique_parameters</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">op_kwargs</span><span class="p">)</span>
+    <span class="n">unique_parameters</span><span class="p">[</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">pid&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getpid</span><span class="p">()</span>
+    <span class="n">unique_parameters</span><span class="p">[</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">timestamp&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span>
+        <span class="n">datetime</span><span class="o">.</span><span class="n">now</span><span class="p">(</span><span class="n">timezone</span><span class="o">.</span><span class="n">utc</span><span class="p">))</span>
+    <span class="n">unique_hash</span> <span class="o">=</span> <span class="n">dict_to_hash</span><span class="p">(</span><span class="n">unique_parameters</span><span class="p">)</span>
+
+    <span class="c1"># if the input data is produced by data-juicer, replace the hash code</span>
+    <span class="c1"># else append hash value to filename</span>
+    <span class="k">def</span> <span class="nf">add_hash_value</span><span class="p">(</span><span class="n">text</span><span class="p">,</span> <span class="n">new_hash_value</span><span class="p">):</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;__dj_hash_#(.*?)#&#39;</span>
+
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+        <span class="c1"># draw the string produced by data-juicer</span>
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="p">[:</span><span class="n">match</span><span class="o">.</span><span class="n">start</span><span class="p">()]</span>
+
+        <span class="k">return</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">text</span><span class="si">}</span><span class="s1">__dj_hash_#</span><span class="si">{</span><span class="n">new_hash_value</span><span class="si">}</span><span class="s1">#&#39;</span>
+
+    <span class="n">original_filename</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">original_filepath</span><span class="p">)</span>
+    <span class="n">name</span><span class="p">,</span> <span class="n">ext</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">original_filename</span><span class="p">)</span>
+    <span class="n">new_name</span> <span class="o">=</span> <span class="n">add_hash_value</span><span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">unique_hash</span><span class="p">)</span>
+    <span class="n">new_filepath</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">new_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">new_name</span><span class="si">}{</span><span class="n">ext</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">new_filepath</span></div>
+
+
+
+<div class="viewcode-block" id="copy_data">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.file_utils.copy_data">[docs]</a>
+<span class="k">def</span> <span class="nf">copy_data</span><span class="p">(</span><span class="n">from_dir</span><span class="p">,</span> <span class="n">to_dir</span><span class="p">,</span> <span class="n">data_path</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Copy data from from_dir/data_path to to_dir/data_path.</span>
+<span class="sd">        Return True if success.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">from_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">from_dir</span><span class="p">,</span> <span class="n">data_path</span><span class="p">)</span>
+    <span class="n">to_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">to_dir</span><span class="p">,</span> <span class="n">data_path</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">from_path</span><span class="p">):</span>
+        <span class="k">return</span> <span class="kc">False</span>
+    <span class="n">parent_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">to_path</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">parent_dir</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">parent_dir</span><span class="p">)</span>
+    <span class="n">shutil</span><span class="o">.</span><span class="n">copy2</span><span class="p">(</span><span class="n">from_path</span><span class="p">,</span> <span class="n">to_path</span><span class="p">)</span>
+    <span class="k">return</span> <span class="kc">True</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/fingerprint_utils.html b/_modules/data_juicer/utils/fingerprint_utils.html
new file mode 100644
index 000000000..612a9cc58
--- /dev/null
+++ b/_modules/data_juicer/utils/fingerprint_utils.html
@@ -0,0 +1,281 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.fingerprint_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.fingerprint_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.fingerprint_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">dill</span>
+<span class="kn">import</span> <span class="nn">xxhash</span>
+<span class="kn">from</span> <span class="nn">datasets.fingerprint</span> <span class="kn">import</span> <span class="p">(</span><span class="n">_CACHING_ENABLED</span><span class="p">,</span> <span class="n">fingerprint_warnings</span><span class="p">,</span>
+                                  <span class="n">format_kwargs_for_fingerprint</span><span class="p">,</span>
+                                  <span class="n">format_transform_for_fingerprint</span><span class="p">,</span>
+                                  <span class="n">generate_random_fingerprint</span><span class="p">,</span>
+                                  <span class="n">validate_fingerprint</span><span class="p">)</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="Hasher">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher">[docs]</a>
+<span class="k">class</span> <span class="nc">Hasher</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Hasher that accepts python objects as inputs.&quot;&quot;&quot;</span>
+
+    <span class="n">dispatch</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="p">{}</span>
+
+<div class="viewcode-block" id="Hasher.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span> <span class="o">=</span> <span class="n">xxhash</span><span class="o">.</span><span class="n">xxh64</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hash_bytes">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">hash_bytes</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">bytes</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">bytes</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="nb">bytes</span><span class="p">)</span> <span class="k">else</span> <span class="n">value</span>
+        <span class="n">m</span> <span class="o">=</span> <span class="n">xxhash</span><span class="o">.</span><span class="n">xxh64</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">value</span><span class="p">:</span>
+            <span class="n">m</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">m</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hash_default">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_default">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">hash_default</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Use dill to serialize objects to avoid serialization failures.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">hash_bytes</span><span class="p">(</span><span class="n">dill</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">value</span><span class="p">))</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hash">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">hash</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">)</span> <span class="ow">in</span> <span class="bp">cls</span><span class="o">.</span><span class="n">dispatch</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">dispatch</span><span class="p">[</span><span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">)](</span><span class="bp">cls</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">hash_default</span><span class="p">(</span><span class="n">value</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Hasher.update">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.update">[docs]</a>
+    <span class="k">def</span> <span class="nf">update</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">:</span> <span class="n">Any</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">header_for_update</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;==</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">)</span><span class="si">}</span><span class="s1">==&#39;</span>
+        <span class="n">value_for_update</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hash</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">header_for_update</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf8&#39;</span><span class="p">))</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">m</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">value_for_update</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">))</span></div>
+
+
+<div class="viewcode-block" id="Hasher.hexdigest">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hexdigest">[docs]</a>
+    <span class="k">def</span> <span class="nf">hexdigest</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">m</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="update_fingerprint">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.update_fingerprint">[docs]</a>
+<span class="k">def</span> <span class="nf">update_fingerprint</span><span class="p">(</span><span class="n">fingerprint</span><span class="p">,</span> <span class="n">transform</span><span class="p">,</span> <span class="n">transform_args</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Combining various objects to update the fingerprint.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">hasher</span> <span class="o">=</span> <span class="n">Hasher</span><span class="p">()</span>
+    <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">fingerprint</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">transform</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa various errors might raise here from pickle or dill</span>
+        <span class="k">if</span> <span class="n">_CACHING_ENABLED</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">fingerprint_warnings</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                    <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">):</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                     a random hash was used instead. Make sure your </span><span class="se">\</span>
+<span class="s2">                     transforms and parameters are serializable with </span><span class="se">\</span>
+<span class="s2">                     pickle or dill for the dataset fingerprinting and </span><span class="se">\</span>
+<span class="s2">                     caching to work. If you reuse this transform, the </span><span class="se">\</span>
+<span class="s2">                     caching mechanism will consider it to be different </span><span class="se">\</span>
+<span class="s2">                     from the previous calls and recompute everything. </span><span class="se">\</span>
+<span class="s2">                     This warning is only showed once. Subsequent hashing </span><span class="se">\</span>
+<span class="s2">                     failures won&#39;t be showed.&quot;</span><span class="p">)</span>
+                <span class="n">fingerprint_warnings</span><span class="p">[</span>
+                    <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                     a random hash was used instead.&quot;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, a </span><span class="se">\</span>
+<span class="s2">                 random hash was used instead. This doesn&#39;t affect caching </span><span class="se">\</span>
+<span class="s2">                 since it&#39;s disabled.&quot;</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">generate_random_fingerprint</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">transform_args</span><span class="p">):</span>
+        <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">hasher</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa various errors might raise here from pickle or dill</span>
+            <span class="k">if</span> <span class="n">_CACHING_ENABLED</span><span class="p">:</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">fingerprint_warnings</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                        <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">):</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Parameter &#39;</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&#39;=</span><span class="si">{</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="si">}</span><span class="s2"> of the </span><span class="se">\</span>
+<span class="s2">                         transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                         a random hash was used instead. Make sure your </span><span class="se">\</span>
+<span class="s2">                         transforms and parameters are serializable with </span><span class="se">\</span>
+<span class="s2">                         pickle or dill for the dataset fingerprinting and </span><span class="se">\</span>
+<span class="s2">                         caching to work. If you reuse this transform, the </span><span class="se">\</span>
+<span class="s2">                         caching mechanism will consider it to be different </span><span class="se">\</span>
+<span class="s2">                         from the previous calls and recompute everything. </span><span class="se">\</span>
+<span class="s2">                         This warning is only showed once. Subsequent hashing </span><span class="se">\</span>
+<span class="s2">                         failures won&#39;t be showed.&quot;</span><span class="p">)</span>
+                    <span class="n">fingerprint_warnings</span><span class="p">[</span>
+                        <span class="s1">&#39;update_fingerprint_transform_hash_failed&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Parameter &#39;</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&#39;=</span><span class="si">{</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="si">}</span><span class="s2"> of the </span><span class="se">\</span>
+<span class="s2">                         transform </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, </span><span class="se">\</span>
+<span class="s2">                         a random hash was used instead.&quot;</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Parameter &#39;</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&#39;=</span><span class="si">{</span><span class="n">transform_args</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="si">}</span><span class="s2"> of the transform </span><span class="se">\</span>
+<span class="s2">                     </span><span class="si">{</span><span class="n">transform</span><span class="si">}</span><span class="s2"> couldn&#39;t be hashed properly, a random hash </span><span class="se">\</span>
+<span class="s2">                     was used instead. This doesn&#39;t affect caching since it&#39;s </span><span class="se">\</span>
+<span class="s2">                     disabled.&quot;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">generate_random_fingerprint</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">hasher</span><span class="o">.</span><span class="n">hexdigest</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="generate_fingerprint">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.fingerprint_utils.generate_fingerprint">[docs]</a>
+<span class="k">def</span> <span class="nf">generate_fingerprint</span><span class="p">(</span><span class="n">ds</span><span class="p">,</span> <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Generate new fingerprints by using various kwargs of the dataset.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">args</span><span class="p">:</span>
+        <span class="n">args</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">args</span><span class="p">)</span>
+        <span class="n">dataset_kwargs</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;shard&#39;</span><span class="p">:</span> <span class="n">ds</span><span class="p">,</span> <span class="s1">&#39;function&#39;</span><span class="p">:</span> <span class="n">args</span><span class="p">[</span><span class="mi">0</span><span class="p">]}</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">dataset_kwargs</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;shard&#39;</span><span class="p">:</span> <span class="n">ds</span><span class="p">}</span>
+    <span class="n">dataset_kwargs</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="c1"># we create a unique hash from the function,</span>
+    <span class="c1"># current dataset file and the mapping args</span>
+    <span class="n">transform</span> <span class="o">=</span> <span class="n">format_transform_for_fingerprint</span><span class="p">(</span><span class="n">ds</span><span class="o">.</span><span class="n">_map_single</span><span class="p">)</span>
+    <span class="n">kwargs_for_fingerprint</span> <span class="o">=</span> <span class="n">format_kwargs_for_fingerprint</span><span class="p">(</span>
+        <span class="n">ds</span><span class="o">.</span><span class="n">_map_single</span><span class="p">,</span> <span class="p">(),</span> <span class="n">dataset_kwargs</span><span class="p">)</span>
+    <span class="n">kwargs_for_fingerprint</span><span class="p">[</span><span class="s1">&#39;fingerprint_name&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;new_fingerprint&#39;</span>
+    <span class="n">new_fingerprint</span> <span class="o">=</span> <span class="n">update_fingerprint</span><span class="p">(</span><span class="n">ds</span><span class="o">.</span><span class="n">_fingerprint</span><span class="p">,</span> <span class="n">transform</span><span class="p">,</span>
+                                         <span class="n">kwargs_for_fingerprint</span><span class="p">)</span>
+    <span class="n">validate_fingerprint</span><span class="p">(</span><span class="n">new_fingerprint</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">new_fingerprint</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/lazy_loader.html b/_modules/data_juicer/utils/lazy_loader.html
new file mode 100644
index 000000000..d612c272b
--- /dev/null
+++ b/_modules/data_juicer/utils/lazy_loader.html
@@ -0,0 +1,184 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.lazy_loader &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.lazy_loader</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.lazy_loader</h1><div class="highlight"><pre>
+<span></span><span class="sd">&quot;&quot;&quot;A LazyLoader class.&quot;&quot;&quot;</span>
+
+<span class="kn">import</span> <span class="nn">importlib</span>
+<span class="kn">import</span> <span class="nn">inspect</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">types</span>
+
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils.auto_install_utils</span> <span class="kn">import</span> <span class="p">(</span><span class="n">AutoInstaller</span><span class="p">,</span>
+                                                  <span class="n">_is_module_installed</span><span class="p">)</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.availability_utils</span> <span class="kn">import</span> <span class="n">_torch_check_and_set</span>
+
+<span class="n">current_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">realpath</span><span class="p">(</span><span class="vm">__file__</span><span class="p">))</span>
+<span class="n">science_file_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">current_path</span><span class="p">,</span>
+                                 <span class="s1">&#39;../../environments/science_requires.txt&#39;</span><span class="p">)</span>
+<span class="n">dist_file_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">current_path</span><span class="p">,</span>
+                              <span class="s1">&#39;../../environments/dist_requires.txt&#39;</span><span class="p">)</span>
+<span class="n">AUTOINSTALL</span> <span class="o">=</span> <span class="n">AutoInstaller</span><span class="p">([</span><span class="n">science_file_path</span><span class="p">,</span> <span class="n">dist_file_path</span><span class="p">])</span>
+
+
+<div class="viewcode-block" id="LazyLoader">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader">[docs]</a>
+<span class="k">class</span> <span class="nc">LazyLoader</span><span class="p">(</span><span class="n">types</span><span class="o">.</span><span class="n">ModuleType</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Lazily import a module, mainly to avoid pulling in large dependencies.</span>
+<span class="sd">    `contrib`, and `ffmpeg` are examples of modules that are large and not</span>
+<span class="sd">    always needed, and this allows them to only be loaded when they are used.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># The lint error here is incorrect.</span>
+<div class="viewcode-block" id="LazyLoader.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">local_name</span><span class="p">,</span> <span class="n">name</span><span class="p">,</span> <span class="n">auto_install</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_local_name</span> <span class="o">=</span> <span class="n">local_name</span>
+        <span class="c1"># get last frame in the stack</span>
+        <span class="n">frame</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span>
+        <span class="c1"># get the globals of module who calls LazyLoader</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_parent_module_globals</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_globals</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">auto_install</span> <span class="o">=</span> <span class="n">auto_install</span>
+
+        <span class="nb">super</span><span class="p">(</span><span class="n">LazyLoader</span><span class="p">,</span> <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">name</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span> <span class="nf">_load</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="c1"># Auto install if necessary</span>
+        <span class="n">module_name</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__name__</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_install</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">_is_module_installed</span><span class="p">(</span><span class="n">module_name</span><span class="p">):</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Module &#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s2">&#39; not installed or fully installed.&quot;</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Auto installing &#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s2">&#39; ...&quot;</span><span class="p">)</span>
+            <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">install</span><span class="p">(</span><span class="n">module_name</span><span class="p">)</span>
+        <span class="c1"># check for torch</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;torch&#39;</span><span class="p">:</span>
+            <span class="n">_torch_check_and_set</span><span class="p">()</span>
+        <span class="c1"># Import the target module and insert it into the parent&#39;s namespace</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="n">importlib</span><span class="o">.</span><span class="n">import_module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="vm">__name__</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_parent_module_globals</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">_local_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">module</span>
+
+        <span class="c1"># Update this object&#39;s dict so that if someone keeps a reference to the</span>
+        <span class="c1">#   LazyLoader, lookups are efficient (__getattr__ is only called on</span>
+        <span class="c1">#   lookups that fail).</span>
+        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">module</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">module</span>
+
+    <span class="k">def</span> <span class="fm">__getattr__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">item</span><span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+        <span class="k">return</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">module</span><span class="p">,</span> <span class="n">item</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__dir__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_load</span><span class="p">()</span>
+        <span class="k">return</span> <span class="nb">dir</span><span class="p">(</span><span class="n">module</span><span class="p">)</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/logger_utils.html b/_modules/data_juicer/utils/logger_utils.html
new file mode 100644
index 000000000..e33b1744a
--- /dev/null
+++ b/_modules/data_juicer/utils/logger_utils.html
@@ -0,0 +1,307 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.logger_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.logger_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.logger_utils</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Some codes here are adapted from</span>
+<span class="c1"># https://github.com/MegEngine/YOLOX/blob/main/yolox/utils/logger.py</span>
+
+<span class="c1"># Copyright 2021 Megvii, Base Detection</span>
+<span class="c1">#</span>
+<span class="c1">#    Licensed under the Apache License, Version 2.0 (the &quot;License&quot;);</span>
+<span class="c1">#    you may not use this file except in compliance with the License.</span>
+<span class="c1">#    You may obtain a copy of the License at</span>
+<span class="c1">#</span>
+<span class="c1">#        http://www.apache.org/licenses/LICENSE-2.0</span>
+<span class="c1">#</span>
+<span class="c1">#    Unless required by applicable law or agreed to in writing, software</span>
+<span class="c1">#    distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
+<span class="c1">#    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
+<span class="c1">#    See the License for the specific language governing permissions and</span>
+<span class="c1">#    limitations under the License.</span>
+
+<span class="kn">import</span> <span class="nn">inspect</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">sys</span>
+<span class="kn">from</span> <span class="nn">io</span> <span class="kn">import</span> <span class="n">StringIO</span>
+
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span> <span class="nn">loguru._file_sink</span> <span class="kn">import</span> <span class="n">FileSink</span>
+
+<span class="n">LOGGER_SETUP</span> <span class="o">=</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="get_caller_name">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name">[docs]</a>
+<span class="k">def</span> <span class="nf">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">0</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get caller name by depth.</span>
+
+<span class="sd">    :param depth: depth of caller context, use 0 for caller depth.</span>
+<span class="sd">    :return: module name of the caller</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># the following logic is a little bit faster than inspect.stack() logic</span>
+    <span class="n">frame</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">currentframe</span><span class="p">()</span><span class="o">.</span><span class="n">f_back</span>
+    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">depth</span><span class="p">):</span>
+        <span class="n">frame</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_back</span>
+
+    <span class="k">return</span> <span class="n">frame</span><span class="o">.</span><span class="n">f_globals</span><span class="p">[</span><span class="s1">&#39;__name__&#39;</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="StreamToLoguru">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">[docs]</a>
+<span class="k">class</span> <span class="nc">StreamToLoguru</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Stream object that redirects writes to a logger instance.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="StreamToLoguru.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span> <span class="n">caller_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;datasets&#39;</span><span class="p">,</span> <span class="s1">&#39;logging&#39;</span><span class="p">)):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param level: log level string of loguru. Default value: &quot;INFO&quot;.</span>
+<span class="sd">        :param caller_names: caller names of redirected module.</span>
+<span class="sd">                    Default value: (apex, pycocotools).</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">level</span> <span class="o">=</span> <span class="n">level</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span> <span class="o">=</span> <span class="n">caller_names</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span> <span class="o">=</span> <span class="n">StringIO</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">BUFFER_SIZE</span> <span class="o">=</span> <span class="mi">1024</span> <span class="o">*</span> <span class="mi">1024</span></div>
+
+
+<div class="viewcode-block" id="StreamToLoguru.write">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">[docs]</a>
+    <span class="k">def</span> <span class="nf">write</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">buf</span><span class="p">):</span>
+        <span class="n">full_name</span> <span class="o">=</span> <span class="n">get_caller_name</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">module_name</span> <span class="o">=</span> <span class="n">full_name</span><span class="o">.</span><span class="n">rsplit</span><span class="p">(</span><span class="s1">&#39;.&#39;</span><span class="p">,</span> <span class="n">maxsplit</span><span class="o">=-</span><span class="mi">1</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">buf</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">caller_names</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">buf</span><span class="o">.</span><span class="n">rstrip</span><span class="p">()</span><span class="o">.</span><span class="n">splitlines</span><span class="p">():</span>
+                <span class="c1"># use caller level log</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">opt</span><span class="p">(</span><span class="n">depth</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">level</span><span class="p">,</span> <span class="n">line</span><span class="o">.</span><span class="n">rstrip</span><span class="p">())</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># sys.__stdout__.write(buf)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">opt</span><span class="p">(</span><span class="n">raw</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="n">buf</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">truncate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">BUFFER_SIZE</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="StreamToLoguru.getvalue">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.getvalue">[docs]</a>
+    <span class="k">def</span> <span class="nf">getvalue</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">getvalue</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="StreamToLoguru.flush">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush">[docs]</a>
+    <span class="k">def</span> <span class="nf">flush</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">buffer</span><span class="o">.</span><span class="n">flush</span><span class="p">()</span></div>
+</div>
+
+
+
+<div class="viewcode-block" id="redirect_sys_output">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output">[docs]</a>
+<span class="k">def</span> <span class="nf">redirect_sys_output</span><span class="p">(</span><span class="n">log_level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Redirect stdout/stderr to loguru with log level.</span>
+
+<span class="sd">    :param log_level: log level string of loguru. Default value: &quot;INFO&quot;.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">redirect_logger</span> <span class="o">=</span> <span class="n">StreamToLoguru</span><span class="p">(</span><span class="n">level</span><span class="o">=</span><span class="n">log_level</span><span class="p">)</span>
+    <span class="n">sys</span><span class="o">.</span><span class="n">stderr</span> <span class="o">=</span> <span class="n">redirect_logger</span>
+    <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="n">redirect_logger</span></div>
+
+
+
+<div class="viewcode-block" id="get_log_file_path">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path">[docs]</a>
+<span class="k">def</span> <span class="nf">get_log_file_path</span><span class="p">():</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get the path to the location of the log file.</span>
+
+<span class="sd">    :return: a location of log file.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">_</span><span class="p">,</span> <span class="n">handler</span> <span class="ow">in</span> <span class="n">logger</span><span class="o">.</span><span class="n">_core</span><span class="o">.</span><span class="n">handlers</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">handler</span><span class="o">.</span><span class="n">_sink</span><span class="p">,</span> <span class="n">FileSink</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">handler</span><span class="o">.</span><span class="n">_sink</span><span class="o">.</span><span class="n">_file</span><span class="o">.</span><span class="n">name</span></div>
+
+
+
+<div class="viewcode-block" id="setup_logger">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger">[docs]</a>
+<span class="k">def</span> <span class="nf">setup_logger</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span>
+                 <span class="n">distributed_rank</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                 <span class="n">filename</span><span class="o">=</span><span class="s1">&#39;log.txt&#39;</span><span class="p">,</span>
+                 <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;o&#39;</span><span class="p">,</span>
+                 <span class="n">level</span><span class="o">=</span><span class="s1">&#39;INFO&#39;</span><span class="p">,</span>
+                 <span class="n">redirect</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Setup logger for training and testing.</span>
+
+<span class="sd">    :param save_dir: location to save log file</span>
+<span class="sd">    :param distributed_rank: device rank when multi-gpu environment</span>
+<span class="sd">    :param filename: log file name to save</span>
+<span class="sd">    :param mode: log file write mode, `append` or `override`. default is `o`.</span>
+<span class="sd">    :param level: log severity level. It&#39;s &quot;INFO&quot; in default.</span>
+<span class="sd">    :param redirect: whether to redirect system output</span>
+<span class="sd">    :return: logger instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">global</span> <span class="n">LOGGER_SETUP</span>
+
+    <span class="k">if</span> <span class="n">LOGGER_SETUP</span><span class="p">:</span>
+        <span class="k">return</span>
+
+    <span class="n">loguru_format</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s1">&#39;&lt;green&gt;{time:YYYY-MM-DD HH:mm:ss}&lt;/green&gt; | &#39;</span>
+        <span class="s1">&#39;&lt;level&gt;</span><span class="si">{level: &lt;8}</span><span class="s1">&lt;/level&gt; | &#39;</span>
+        <span class="s1">&#39;&lt;cyan&gt;</span><span class="si">{name}</span><span class="s1">&lt;/cyan&gt;:&lt;cyan&gt;</span><span class="si">{line}</span><span class="s1">&lt;/cyan&gt; - &lt;level&gt;</span><span class="si">{message}</span><span class="s1">&lt;/level&gt;&#39;</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">remove</span><span class="p">()</span>
+    <span class="n">save_file</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="s1">&#39;o&#39;</span> <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">save_file</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">save_file</span><span class="p">)</span>
+
+    <span class="c1"># only keep logger in rank0 process</span>
+    <span class="k">if</span> <span class="n">distributed_rank</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">add</span><span class="p">(</span>
+            <span class="n">sys</span><span class="o">.</span><span class="n">stderr</span><span class="p">,</span>
+            <span class="nb">format</span><span class="o">=</span><span class="n">loguru_format</span><span class="p">,</span>
+            <span class="n">level</span><span class="o">=</span><span class="n">level</span><span class="p">,</span>
+            <span class="n">enqueue</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">save_file</span><span class="p">)</span>
+
+    <span class="c1"># redirect stdout/stderr to loguru</span>
+    <span class="k">if</span> <span class="n">redirect</span><span class="p">:</span>
+        <span class="n">redirect_sys_output</span><span class="p">(</span><span class="n">level</span><span class="p">)</span>
+    <span class="n">LOGGER_SETUP</span> <span class="o">=</span> <span class="kc">True</span></div>
+
+
+
+<div class="viewcode-block" id="HiddenPrints">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints">[docs]</a>
+<span class="k">class</span> <span class="nc">HiddenPrints</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Define a range that hide the outputs within this range.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__enter__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Store the original standard output and redirect the standard output to</span>
+<span class="sd">        null when entering this range.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_original_stdout</span> <span class="o">=</span> <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span>
+        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">devnull</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__exit__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">exc_type</span><span class="p">,</span> <span class="n">exc_val</span><span class="p">,</span> <span class="n">exc_tb</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Close the redirected standard output and restore it when exiting from</span>
+<span class="sd">        this range.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+        <span class="n">sys</span><span class="o">.</span><span class="n">stdout</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_original_stdout</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/mm_utils.html b/_modules/data_juicer/utils/mm_utils.html
new file mode 100644
index 000000000..ec14f50fc
--- /dev/null
+++ b/_modules/data_juicer/utils/mm_utils.html
@@ -0,0 +1,1165 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.mm_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.mm_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.mm_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">base64</span>
+<span class="kn">import</span> <span class="nn">datetime</span>
+<span class="kn">import</span> <span class="nn">io</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">re</span>
+<span class="kn">import</span> <span class="nn">shutil</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">av</span>
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">from</span> <span class="nn">datasets</span> <span class="kn">import</span> <span class="n">Audio</span><span class="p">,</span> <span class="n">Image</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+<span class="kn">from</span> <span class="nn">pydantic</span> <span class="kn">import</span> <span class="n">PositiveInt</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer.utils.constant</span> <span class="kn">import</span> <span class="n">DEFAULT_PREFIX</span><span class="p">,</span> <span class="n">Fields</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.file_utils</span> <span class="kn">import</span> <span class="n">add_suffix_to_filename</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">LazyLoader</span>
+
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+
+<span class="c1"># suppress most warnings from av</span>
+<span class="n">av</span><span class="o">.</span><span class="n">logging</span><span class="o">.</span><span class="n">set_level</span><span class="p">(</span><span class="n">av</span><span class="o">.</span><span class="n">logging</span><span class="o">.</span><span class="n">PANIC</span><span class="p">)</span>
+
+
+<span class="c1"># A class to keep special tokens for multimodal information in the texts</span>
+<span class="c1"># The tokens in this class can be updated by corresponding arguments in config</span>
+<div class="viewcode-block" id="SpecialTokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens">[docs]</a>
+<span class="k">class</span> <span class="nc">SpecialTokens</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+    <span class="c1"># modality</span>
+    <span class="n">image</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">image&gt;&#39;</span>
+    <span class="n">audio</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">audio&gt;&#39;</span>
+    <span class="n">video</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">video&gt;&#39;</span>
+
+    <span class="c1"># others</span>
+    <span class="n">eoc</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;&lt;|</span><span class="si">{</span><span class="n">DEFAULT_PREFIX</span><span class="si">}</span><span class="s1">eoc|&gt;&#39;</span></div>
+
+
+
+<span class="n">AV_STREAM_THREAD_TYPE</span> <span class="o">=</span> <span class="s1">&#39;AUTO&#39;</span>
+<span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    av stream thread type support &quot;SLICE&quot;, &quot;FRAME&quot;, &quot;AUTO&quot;.</span>
+
+<span class="sd">        &quot;SLICE&quot;: Decode more than one part of a single frame at once</span>
+
+<span class="sd">        &quot;FRAME&quot;: Decode more than one frame at once</span>
+
+<span class="sd">        &quot;AUTO&quot;: Using both &quot;FRAME&quot; and &quot;SLICE&quot;</span>
+<span class="sd">        AUTO is faster when there are no video latency.</span>
+
+<span class="sd">&quot;&quot;&quot;</span>
+
+
+<div class="viewcode-block" id="get_special_tokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_special_tokens">[docs]</a>
+<span class="k">def</span> <span class="nf">get_special_tokens</span><span class="p">():</span>
+    <span class="n">special_token_dict</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">key</span><span class="p">:</span> <span class="n">value</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">SpecialTokens</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">key</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;__&#39;</span><span class="p">)</span>
+    <span class="p">}</span>
+    <span class="k">return</span> <span class="n">special_token_dict</span></div>
+
+
+
+<div class="viewcode-block" id="remove_special_tokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.remove_special_tokens">[docs]</a>
+<span class="k">def</span> <span class="nf">remove_special_tokens</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+    <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">get_special_tokens</span><span class="p">()</span><span class="o">.</span><span class="n">values</span><span class="p">():</span>
+        <span class="n">text</span> <span class="o">=</span> <span class="n">text</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">text</span></div>
+
+
+
+<div class="viewcode-block" id="remove_non_special_tokens">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.remove_non_special_tokens">[docs]</a>
+<span class="k">def</span> <span class="nf">remove_non_special_tokens</span><span class="p">(</span><span class="n">text</span><span class="p">):</span>
+    <span class="n">special_tokens</span> <span class="o">=</span> <span class="n">get_special_tokens</span><span class="p">()</span><span class="o">.</span><span class="n">values</span><span class="p">()</span>
+    <span class="n">patterns</span> <span class="o">=</span> <span class="s1">&#39;|&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">re</span><span class="o">.</span><span class="n">escape</span><span class="p">(</span><span class="n">token</span><span class="p">)</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="n">special_tokens</span><span class="p">)</span>
+    <span class="n">special_tokens_found</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">patterns</span><span class="p">,</span> <span class="n">text</span><span class="p">)</span>
+    <span class="n">text_with_only_special_tokens</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">special_tokens_found</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">text_with_only_special_tokens</span></div>
+
+
+
+<div class="viewcode-block" id="load_data_with_context">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_data_with_context">[docs]</a>
+<span class="k">def</span> <span class="nf">load_data_with_context</span><span class="p">(</span><span class="n">sample</span><span class="p">,</span> <span class="n">context</span><span class="p">,</span> <span class="n">loaded_data_keys</span><span class="p">,</span> <span class="n">load_func</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The unified loading function with contexts for multimodal data.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">data</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">loaded_data_key</span> <span class="ow">in</span> <span class="n">loaded_data_keys</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">context</span> <span class="ow">and</span> <span class="n">loaded_data_key</span> <span class="ow">in</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">]:</span>
+            <span class="c1"># load from context</span>
+            <span class="n">data</span><span class="p">[</span><span class="n">loaded_data_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">loaded_data_key</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">loaded_data_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">data</span><span class="p">:</span>
+                <span class="c1"># avoid load the same data</span>
+                <span class="n">data_item</span> <span class="o">=</span> <span class="n">load_func</span><span class="p">(</span><span class="n">loaded_data_key</span><span class="p">)</span>
+                <span class="n">data</span><span class="p">[</span><span class="n">loaded_data_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">data_item</span>
+                <span class="k">if</span> <span class="n">context</span><span class="p">:</span>
+                    <span class="c1"># store the data into context</span>
+                    <span class="n">sample</span><span class="p">[</span><span class="n">Fields</span><span class="o">.</span><span class="n">context</span><span class="p">][</span><span class="n">loaded_data_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">data_item</span>
+    <span class="k">return</span> <span class="n">sample</span><span class="p">,</span> <span class="n">data</span></div>
+
+
+
+<span class="c1"># Images</span>
+<div class="viewcode-block" id="load_images">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_images">[docs]</a>
+<span class="k">def</span> <span class="nf">load_images</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_image</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_images_byte">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_images_byte">[docs]</a>
+<span class="k">def</span> <span class="nf">load_images_byte</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_image_byte</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_image">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_image">[docs]</a>
+<span class="k">def</span> <span class="nf">load_image</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+    <span class="n">img_feature</span> <span class="o">=</span> <span class="n">Image</span><span class="p">()</span>
+    <span class="n">img</span> <span class="o">=</span> <span class="n">img_feature</span><span class="o">.</span><span class="n">decode_example</span><span class="p">(</span><span class="n">img_feature</span><span class="o">.</span><span class="n">encode_example</span><span class="p">(</span><span class="n">path</span><span class="p">))</span>
+    <span class="n">img</span> <span class="o">=</span> <span class="n">img</span><span class="o">.</span><span class="n">convert</span><span class="p">(</span><span class="s1">&#39;RGB&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">img</span></div>
+
+
+
+<div class="viewcode-block" id="load_image_byte">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_image_byte">[docs]</a>
+<span class="k">def</span> <span class="nf">load_image_byte</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">image_file</span><span class="p">:</span>
+        <span class="n">image_data</span> <span class="o">=</span> <span class="n">image_file</span><span class="o">.</span><span class="n">read</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">image_data</span></div>
+
+
+
+<div class="viewcode-block" id="image_path_to_base64">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.image_path_to_base64">[docs]</a>
+<span class="k">def</span> <span class="nf">image_path_to_base64</span><span class="p">(</span><span class="n">image_path</span><span class="p">):</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">image_path</span><span class="p">,</span> <span class="s1">&#39;rb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">image_file</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">base64</span><span class="o">.</span><span class="n">b64encode</span><span class="p">(</span><span class="n">image_file</span><span class="o">.</span><span class="n">read</span><span class="p">())</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="image_byte_to_base64">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.image_byte_to_base64">[docs]</a>
+<span class="k">def</span> <span class="nf">image_byte_to_base64</span><span class="p">(</span><span class="n">image_byte</span><span class="p">):</span>
+    <span class="k">return</span> <span class="n">base64</span><span class="o">.</span><span class="n">b64encode</span><span class="p">(</span><span class="n">image_byte</span><span class="p">)</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="pil_to_opencv">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.pil_to_opencv">[docs]</a>
+<span class="k">def</span> <span class="nf">pil_to_opencv</span><span class="p">(</span><span class="n">pil_image</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">pil_image</span><span class="o">.</span><span class="n">mode</span> <span class="o">!=</span> <span class="s1">&#39;RGB&#39;</span><span class="p">:</span>
+        <span class="n">pil_image</span> <span class="o">=</span> <span class="n">pil_image</span><span class="o">.</span><span class="n">convert</span><span class="p">(</span><span class="s1">&#39;RGB&#39;</span><span class="p">)</span>
+    <span class="n">numpy_image</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">pil_image</span><span class="p">)</span>
+    <span class="c1"># RGB to BGR</span>
+    <span class="n">opencv_image</span> <span class="o">=</span> <span class="n">numpy_image</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">::</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">opencv_image</span></div>
+
+
+
+<div class="viewcode-block" id="detect_faces">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.detect_faces">[docs]</a>
+<span class="k">def</span> <span class="nf">detect_faces</span><span class="p">(</span><span class="n">image</span><span class="p">,</span> <span class="n">detector</span><span class="p">,</span> <span class="o">**</span><span class="n">extra_kwargs</span><span class="p">):</span>
+    <span class="n">img</span> <span class="o">=</span> <span class="n">pil_to_opencv</span><span class="p">(</span><span class="n">image</span><span class="p">)</span>
+    <span class="n">gray</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">cvtColor</span><span class="p">(</span><span class="n">img</span><span class="p">,</span> <span class="n">cv2</span><span class="o">.</span><span class="n">COLOR_BGR2GRAY</span><span class="p">)</span>
+    <span class="n">dets</span> <span class="o">=</span> <span class="n">detector</span><span class="o">.</span><span class="n">detectMultiScale</span><span class="p">(</span><span class="n">gray</span><span class="p">,</span> <span class="o">**</span><span class="n">extra_kwargs</span><span class="p">)</span>
+    <span class="n">rectified_dets</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span> <span class="ow">in</span> <span class="n">dets</span><span class="p">:</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+        <span class="n">y</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">y</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>
+        <span class="n">w</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">w</span><span class="p">,</span> <span class="n">image</span><span class="o">.</span><span class="n">width</span> <span class="o">-</span> <span class="n">x</span><span class="p">)</span>
+        <span class="n">h</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">h</span><span class="p">,</span> <span class="n">image</span><span class="o">.</span><span class="n">height</span> <span class="o">-</span> <span class="n">y</span><span class="p">)</span>
+        <span class="n">rectified_dets</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">w</span><span class="p">,</span> <span class="n">h</span><span class="p">])</span>
+    <span class="k">return</span> <span class="n">rectified_dets</span></div>
+
+
+
+<div class="viewcode-block" id="get_file_size">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_file_size">[docs]</a>
+<span class="k">def</span> <span class="nf">get_file_size</span><span class="p">(</span><span class="n">path</span><span class="p">):</span>
+    <span class="kn">import</span> <span class="nn">os</span>
+    <span class="k">return</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">getsize</span><span class="p">(</span><span class="n">path</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="iou">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.iou">[docs]</a>
+<span class="k">def</span> <span class="nf">iou</span><span class="p">(</span><span class="n">box1</span><span class="p">,</span> <span class="n">box2</span><span class="p">):</span>
+    <span class="n">x1_min</span><span class="p">,</span> <span class="n">y1_min</span><span class="p">,</span> <span class="n">x1_max</span><span class="p">,</span> <span class="n">y1_max</span> <span class="o">=</span> <span class="n">box1</span>
+    <span class="n">x2_min</span><span class="p">,</span> <span class="n">y2_min</span><span class="p">,</span> <span class="n">x2_max</span><span class="p">,</span> <span class="n">y2_max</span> <span class="o">=</span> <span class="n">box2</span>
+    <span class="n">area1</span> <span class="o">=</span> <span class="p">(</span><span class="n">x1_max</span> <span class="o">-</span> <span class="n">x1_min</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">y1_max</span> <span class="o">-</span> <span class="n">y1_min</span><span class="p">)</span>
+    <span class="n">area2</span> <span class="o">=</span> <span class="p">(</span><span class="n">x2_max</span> <span class="o">-</span> <span class="n">x2_min</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">y2_max</span> <span class="o">-</span> <span class="n">y2_min</span><span class="p">)</span>
+    <span class="n">ix_min</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">x1_min</span><span class="p">,</span> <span class="n">x2_min</span><span class="p">)</span>
+    <span class="n">ix_max</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">x1_max</span><span class="p">,</span> <span class="n">x2_max</span><span class="p">)</span>
+    <span class="n">iy_min</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">y1_min</span><span class="p">,</span> <span class="n">y2_min</span><span class="p">)</span>
+    <span class="n">iy_max</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">y1_max</span><span class="p">,</span> <span class="n">y2_max</span><span class="p">)</span>
+    <span class="n">intersection</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="p">(</span><span class="n">ix_max</span> <span class="o">-</span> <span class="n">ix_min</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">iy_max</span> <span class="o">-</span> <span class="n">iy_min</span><span class="p">))</span>
+    <span class="n">union</span> <span class="o">=</span> <span class="n">area1</span> <span class="o">+</span> <span class="n">area2</span> <span class="o">-</span> <span class="n">intersection</span>
+    <span class="k">return</span> <span class="mf">1.0</span> <span class="o">*</span> <span class="n">intersection</span> <span class="o">/</span> <span class="n">union</span></div>
+
+
+
+<div class="viewcode-block" id="calculate_resized_dimensions">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.calculate_resized_dimensions">[docs]</a>
+<span class="k">def</span> <span class="nf">calculate_resized_dimensions</span><span class="p">(</span>
+        <span class="n">original_size</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">PositiveInt</span><span class="p">],</span>
+        <span class="n">target_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">PositiveInt</span><span class="p">,</span> <span class="n">PositiveInt</span><span class="p">]],</span>
+        <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">divisible</span><span class="p">:</span> <span class="n">PositiveInt</span> <span class="o">=</span> <span class="mi">1</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Resize dimensions based on specified constraints.</span>
+
+<span class="sd">    :param original_size: The original dimensions as (height, width).</span>
+<span class="sd">    :param target_size: Desired target size; can be a single integer</span>
+<span class="sd">        (short edge) or a tuple (height, width).</span>
+<span class="sd">    :param max_length: Maximum allowed length for the longer edge.</span>
+<span class="sd">    :param divisible: The number that the dimensions must be divisible by.</span>
+<span class="sd">    :return: Resized dimensions as (height, width).</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">height</span><span class="p">,</span> <span class="n">width</span> <span class="o">=</span> <span class="n">original_size</span>
+    <span class="n">short_edge</span><span class="p">,</span> <span class="n">long_edge</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">((</span><span class="n">width</span><span class="p">,</span> <span class="n">height</span><span class="p">))</span>
+
+    <span class="c1"># Normalize target_size to a tuple</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">target_size</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="n">target_size</span> <span class="o">=</span> <span class="p">(</span><span class="n">target_size</span><span class="p">,</span> <span class="p">)</span>
+
+    <span class="c1"># Initialize new dimensions</span>
+    <span class="k">if</span> <span class="n">target_size</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">target_size</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>  <span class="c1"># Only the smaller edge is specified</span>
+            <span class="n">new_short_edge</span> <span class="o">=</span> <span class="n">target_size</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">new_long_edge</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">new_short_edge</span> <span class="o">*</span> <span class="n">long_edge</span> <span class="o">/</span> <span class="n">short_edge</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>  <span class="c1"># Both dimensions are specified</span>
+            <span class="n">new_short_edge</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">target_size</span><span class="p">)</span>
+            <span class="n">new_long_edge</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">target_size</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>  <span class="c1"># No change</span>
+        <span class="n">new_short_edge</span><span class="p">,</span> <span class="n">new_long_edge</span> <span class="o">=</span> <span class="n">short_edge</span><span class="p">,</span> <span class="n">long_edge</span>
+
+    <span class="c1"># Enforce maximum length constraint</span>
+    <span class="k">if</span> <span class="n">max_length</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">new_long_edge</span> <span class="o">&gt;</span> <span class="n">max_length</span><span class="p">:</span>
+        <span class="n">scaling_factor</span> <span class="o">=</span> <span class="n">max_length</span> <span class="o">/</span> <span class="n">new_long_edge</span>
+        <span class="n">new_short_edge</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">new_short_edge</span> <span class="o">*</span> <span class="n">scaling_factor</span><span class="p">)</span>
+        <span class="n">new_long_edge</span> <span class="o">=</span> <span class="n">max_length</span>
+
+    <span class="c1"># Determine final dimensions based on original orientation</span>
+    <span class="n">resized_dimensions</span> <span class="o">=</span> <span class="p">((</span><span class="n">new_short_edge</span><span class="p">,</span>
+                           <span class="n">new_long_edge</span><span class="p">)</span> <span class="k">if</span> <span class="n">width</span> <span class="o">&lt;=</span> <span class="n">height</span> <span class="k">else</span>
+                          <span class="p">(</span><span class="n">new_long_edge</span><span class="p">,</span> <span class="n">new_short_edge</span><span class="p">))</span>
+
+    <span class="c1"># Ensure final dimensions are divisible by the specified value</span>
+    <span class="n">resized_dimensions</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span>
+        <span class="nb">int</span><span class="p">(</span><span class="n">dim</span> <span class="o">/</span> <span class="n">divisible</span><span class="p">)</span> <span class="o">*</span> <span class="n">divisible</span> <span class="k">for</span> <span class="n">dim</span> <span class="ow">in</span> <span class="n">resized_dimensions</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">resized_dimensions</span></div>
+
+
+
+<span class="c1"># Audios</span>
+<div class="viewcode-block" id="load_audios">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_audios">[docs]</a>
+<span class="k">def</span> <span class="nf">load_audios</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_audio</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_audio">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_audio">[docs]</a>
+<span class="k">def</span> <span class="nf">load_audio</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">sampling_rate</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+    <span class="n">aud_feature</span> <span class="o">=</span> <span class="n">Audio</span><span class="p">(</span><span class="n">sampling_rate</span><span class="p">)</span>
+    <span class="n">aud</span> <span class="o">=</span> <span class="n">aud_feature</span><span class="o">.</span><span class="n">decode_example</span><span class="p">(</span><span class="n">aud_feature</span><span class="o">.</span><span class="n">encode_example</span><span class="p">(</span><span class="n">path</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">aud</span><span class="p">[</span><span class="s1">&#39;array&#39;</span><span class="p">],</span> <span class="n">aud</span><span class="p">[</span><span class="s1">&#39;sampling_rate&#39;</span><span class="p">]</span></div>
+
+
+
+<span class="c1"># Videos</span>
+<div class="viewcode-block" id="load_videos">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_videos">[docs]</a>
+<span class="k">def</span> <span class="nf">load_videos</span><span class="p">(</span><span class="n">paths</span><span class="p">):</span>
+    <span class="k">return</span> <span class="p">[</span><span class="n">load_video</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="k">for</span> <span class="n">path</span> <span class="ow">in</span> <span class="n">paths</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="load_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.load_video">[docs]</a>
+<span class="k">def</span> <span class="nf">load_video</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Load a video using its path.</span>
+
+<span class="sd">    :param path: the path to this video.</span>
+<span class="sd">    :param mode: the loading mode. It&#39;s &quot;r&quot; in default.</span>
+<span class="sd">    :return: a container object form PyAv library, which contains all streams</span>
+<span class="sd">        in this video (video/audio/...) and can be used to decode these streams</span>
+<span class="sd">        to frames.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">path</span><span class="p">)</span> <span class="ow">and</span> <span class="s1">&#39;r&#39;</span> <span class="ow">in</span> <span class="n">mode</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">FileNotFoundError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Video [</span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s1">] does not exist!&#39;</span><span class="p">)</span>
+    <span class="n">container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">mode</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">container</span></div>
+
+
+
+<div class="viewcode-block" id="get_video_duration">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_video_duration">[docs]</a>
+<span class="k">def</span> <span class="nf">get_video_duration</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+                       <span class="n">video_stream_index</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get the video&#39;s duration from the container</span>
+
+<span class="sd">    :param input_video: the container object form PyAv library, which</span>
+<span class="sd">        contains all streams in this video (video/audio/...) and can be used</span>
+<span class="sd">        to decode these streams to frames.</span>
+<span class="sd">    :param video_stream_index: the video stream index to decode,</span>
+<span class="sd">        default set to 0.</span>
+<span class="sd">    :return: duration of the video in second</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="n">video_stream_index</span><span class="p">]</span>
+    <span class="n">duration</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">duration</span> <span class="o">*</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+    <span class="k">return</span> <span class="nb">float</span><span class="p">(</span><span class="n">duration</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="get_decoded_frames_from_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_decoded_frames_from_video">[docs]</a>
+<span class="k">def</span> <span class="nf">get_decoded_frames_from_video</span><span class="p">(</span>
+        <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+        <span class="n">video_stream_index</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get the video&#39;s frames from the container</span>
+
+<span class="sd">    :param input_video: the container object form PyAv library, which</span>
+<span class="sd">        contains all streams in this video (video/audio/...) and can be used</span>
+<span class="sd">        to decode these streams to frames.</span>
+<span class="sd">    :param video_stream_index: the video stream index to decode,</span>
+<span class="sd">        default set to 0.</span>
+<span class="sd">    :return: an iterator of all the frames of the video</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="n">stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="n">video_stream_index</span><span class="p">]</span>
+    <span class="c1"># use &quot;AUTO&quot; thread_type for faster decode</span>
+    <span class="n">stream</span><span class="o">.</span><span class="n">thread_type</span> <span class="o">=</span> <span class="n">AV_STREAM_THREAD_TYPE</span>
+    <span class="k">return</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">stream</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="cut_video_by_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.cut_video_by_seconds">[docs]</a>
+<span class="k">def</span> <span class="nf">cut_video_by_seconds</span><span class="p">(</span>
+    <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+    <span class="n">output_video</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="n">start_seconds</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+    <span class="n">end_seconds</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Cut a video into several segments by times in second.</span>
+
+<span class="sd">    :param input_video: the path to input video or the video container.</span>
+<span class="sd">    :param output_video: the path to output video.</span>
+<span class="sd">    :param start_seconds: the start time in second.</span>
+<span class="sd">    :param end_seconds: the end time in second. If it&#39;s None, this function</span>
+<span class="sd">        will cut the video from the start_seconds to the end of the video.</span>
+<span class="sd">    :return: a boolean flag indicating whether the video was successfully</span>
+<span class="sd">        cut or not.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># open the original video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+
+    <span class="c1"># create the output video</span>
+    <span class="k">if</span> <span class="n">output_video</span><span class="p">:</span>
+        <span class="n">output_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">output_video</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">output_buffer</span> <span class="o">=</span> <span class="n">io</span><span class="o">.</span><span class="n">BytesIO</span><span class="p">()</span>
+        <span class="n">output_container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_buffer</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;w&#39;</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;mp4&#39;</span><span class="p">)</span>
+
+    <span class="c1"># add the video stream into the output video according to input video</span>
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">codec_name</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">name</span>
+    <span class="n">fps</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">base_rate</span>
+    <span class="n">output_video_stream</span> <span class="o">=</span> <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">codec_name</span><span class="p">,</span> <span class="n">rate</span><span class="o">=</span><span class="n">fps</span><span class="p">)</span>
+    <span class="n">output_video_stream</span><span class="o">.</span><span class="n">width</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+    <span class="n">output_video_stream</span><span class="o">.</span><span class="n">height</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+    <span class="n">output_video_stream</span><span class="o">.</span><span class="n">pix_fmt</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">pix_fmt</span>
+
+    <span class="c1"># add the audio stream into the output video with template of input audio</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">input_audio_stream</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">input_audio_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">template</span><span class="o">=</span><span class="n">input_audio_stream</span><span class="p">)</span>
+
+    <span class="c1"># seek to the start time, time must be in microsecond if no</span>
+    <span class="c1"># stream is specified</span>
+    <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">*</span> <span class="mi">1000000</span><span class="p">),</span>
+                   <span class="n">any_frame</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                   <span class="n">backward</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="c1"># copy the video and audio streams until the end time</span>
+    <span class="c1"># NOTICE: for different streams, the time have to be converted to be</span>
+    <span class="c1"># in the corresponding time base.</span>
+    <span class="n">video_at_the_end</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="c1"># compute the start/end pts for video/audio streams</span>
+    <span class="n">video_start_pts</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">/</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+    <span class="n">video_end_pts</span> <span class="o">=</span> <span class="p">(</span><span class="n">end_seconds</span> <span class="o">/</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+                     <span class="k">if</span> <span class="n">end_seconds</span> <span class="k">else</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">duration</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">input_audio_stream</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">audio_start_pts</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">/</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+        <span class="n">audio_end_pts</span> <span class="o">=</span> <span class="p">(</span><span class="n">end_seconds</span> <span class="o">/</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span>
+                         <span class="k">if</span> <span class="n">end_seconds</span> <span class="k">else</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">duration</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">demux</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">,</span> <span class="n">input_audio_stream</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">stream</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s1">&#39;video&#39;</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">packet</span><span class="o">.</span><span class="n">decode</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&lt;</span> <span class="n">video_start_pts</span><span class="p">:</span>
+                    <span class="k">continue</span>
+                <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;</span> <span class="n">video_end_pts</span><span class="p">:</span>
+                    <span class="c1"># continue to check until the next P/I frame</span>
+                    <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pict_type</span> <span class="ow">in</span> <span class="p">{</span><span class="s1">&#39;P&#39;</span><span class="p">,</span> <span class="s1">&#39;I&#39;</span><span class="p">}:</span>
+                        <span class="n">video_at_the_end</span> <span class="o">=</span> <span class="kc">True</span>
+                        <span class="k">break</span>
+                    <span class="k">continue</span>
+                <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">-=</span> <span class="n">video_start_pts</span>  <span class="c1"># timestamp alignment</span>
+                <span class="k">for</span> <span class="n">inter_packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">frame</span><span class="p">):</span>
+                    <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">inter_packet</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">packet</span><span class="o">.</span><span class="n">stream</span><span class="o">.</span><span class="n">type</span> <span class="o">==</span> <span class="s1">&#39;audio&#39;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">packet</span><span class="o">.</span><span class="n">dts</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="o">&lt;</span> <span class="n">audio_start_pts</span> <span class="ow">or</span> <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;</span> <span class="n">audio_end_pts</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="n">packet</span><span class="o">.</span><span class="n">pts</span> <span class="o">-=</span> <span class="n">audio_start_pts</span>
+            <span class="n">packet</span><span class="o">.</span><span class="n">dts</span> <span class="o">-=</span> <span class="n">audio_start_pts</span>
+            <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">video_at_the_end</span><span class="p">:</span>
+            <span class="k">break</span>
+
+    <span class="c1"># flush all packets</span>
+    <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">():</span>
+        <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+    <span class="c1"># close the output videos</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">close_video</span><span class="p">(</span><span class="n">output_container</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">output_video</span><span class="p">:</span>
+        <span class="n">output_buffer</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">output_buffer</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">output_video</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;This video could not be successfully cut in &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">start_seconds</span><span class="si">}</span><span class="s1">, </span><span class="si">{</span><span class="n">end_seconds</span><span class="si">}</span><span class="s1">] seconds. &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;Please set more accurate parameters.&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">output_video</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="process_each_frame">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.process_each_frame">[docs]</a>
+<span class="k">def</span> <span class="nf">process_each_frame</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+                       <span class="n">output_video</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">frame_func</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Process each frame in video by replacing each frame by</span>
+<span class="sd">    `frame_func(frame)`.</span>
+
+<span class="sd">    :param input_video: the path to input video or the video container.</span>
+<span class="sd">    :param output_video: the path to output video.</span>
+<span class="sd">    :param frame_func: a function which inputs a frame and outputs another</span>
+<span class="sd">        frame.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">frame_modified</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="c1"># open the original video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+
+    <span class="c1"># create the output video</span>
+    <span class="n">output_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">output_video</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+
+    <span class="c1"># add the audio stream into the output video with template of input audio</span>
+    <span class="k">for</span> <span class="n">input_audio_stream</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">:</span>
+        <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">template</span><span class="o">=</span><span class="n">input_audio_stream</span><span class="p">)</span>
+
+    <span class="c1"># add the video stream into the output video according to input video</span>
+    <span class="k">for</span> <span class="n">input_video_stream</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">:</span>
+        <span class="c1"># search from the beginning</span>
+        <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">backward</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">any_frame</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="n">codec_name</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">name</span>
+        <span class="n">fps</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">base_rate</span>
+        <span class="n">output_video_stream</span> <span class="o">=</span> <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="n">codec_name</span><span class="p">,</span> <span class="n">rate</span><span class="o">=</span><span class="n">fps</span><span class="p">)</span>
+        <span class="n">output_video_stream</span><span class="o">.</span><span class="n">pix_fmt</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">pix_fmt</span>
+        <span class="n">output_video_stream</span><span class="o">.</span><span class="n">width</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">width</span>
+        <span class="n">output_video_stream</span><span class="o">.</span><span class="n">height</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">height</span>
+
+        <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">demux</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">packet</span><span class="o">.</span><span class="n">decode</span><span class="p">():</span>
+                <span class="n">new_frame</span> <span class="o">=</span> <span class="n">frame_func</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                <span class="k">if</span> <span class="n">new_frame</span> <span class="o">!=</span> <span class="n">frame</span><span class="p">:</span>
+                    <span class="n">frame_modified</span> <span class="o">=</span> <span class="kc">True</span>
+                <span class="c1"># for resize cases</span>
+                <span class="n">output_video_stream</span><span class="o">.</span><span class="n">width</span> <span class="o">=</span> <span class="n">new_frame</span><span class="o">.</span><span class="n">width</span>
+                <span class="n">output_video_stream</span><span class="o">.</span><span class="n">height</span> <span class="o">=</span> <span class="n">new_frame</span><span class="o">.</span><span class="n">height</span>
+                <span class="k">for</span> <span class="n">inter_packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">new_frame</span><span class="p">):</span>
+                    <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">inter_packet</span><span class="p">)</span>
+
+        <span class="c1"># flush all packets</span>
+        <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_video_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">():</span>
+            <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+    <span class="c1"># close the output videos</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">close_video</span><span class="p">(</span><span class="n">output_container</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">frame_modified</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">output_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">output_video</span><span class="p">,</span> <span class="n">ignore_errors</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">input_video</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">)</span> <span class="k">else</span> <span class="n">input_video</span><span class="o">.</span><span class="n">name</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="extract_key_frames_by_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames_by_seconds">[docs]</a>
+<span class="k">def</span> <span class="nf">extract_key_frames_by_seconds</span><span class="p">(</span>
+        <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+        <span class="n">duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract key frames by seconds.</span>
+<span class="sd">        :param input_video: input video path or av.container.InputContainer.</span>
+<span class="sd">        :param duration: duration of each video split in seconds.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">video_duration</span> <span class="o">=</span> <span class="n">get_video_duration</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">timestamps</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">video_duration</span><span class="p">,</span> <span class="n">duration</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+
+    <span class="n">all_key_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">timestamps</span><span class="p">)):</span>
+        <span class="n">output_buffer</span> <span class="o">=</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span>
+                                             <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="mi">1</span><span class="p">],</span> <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="k">if</span> <span class="n">output_buffer</span><span class="p">:</span>
+            <span class="n">cut_inp_container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_buffer</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;mp4&#39;</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
+            <span class="n">key_frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">)</span>
+            <span class="n">all_key_frames</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">key_frames</span><span class="p">)</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">all_key_frames</span></div>
+
+
+
+<div class="viewcode-block" id="extract_key_frames">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames">[docs]</a>
+<span class="k">def</span> <span class="nf">extract_key_frames</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">]):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract key frames from the input video. If there is no keyframes in the</span>
+<span class="sd">    video, return the first frame.</span>
+
+<span class="sd">    :param input_video: input video path or container.</span>
+<span class="sd">    :return: a list of key frames.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">key_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">ori_skip_method</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">skip_frame</span>
+    <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">skip_frame</span> <span class="o">=</span> <span class="s1">&#39;NONKEY&#39;</span>
+    <span class="c1"># restore to the beginning of the video</span>
+    <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+        <span class="n">key_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+    <span class="c1"># restore to the original skip_type</span>
+    <span class="n">input_video_stream</span><span class="o">.</span><span class="n">codec_context</span><span class="o">.</span><span class="n">skip_frame</span> <span class="o">=</span> <span class="n">ori_skip_method</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">key_frames</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;No keyframes in this video [</span><span class="si">{</span><span class="n">input_video</span><span class="si">}</span><span class="s1">]. Return &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;the first frame instead.&#39;</span><span class="p">)</span>
+        <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+            <span class="n">key_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+            <span class="k">break</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">key_frames</span></div>
+
+
+
+<div class="viewcode-block" id="get_key_frame_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.get_key_frame_seconds">[docs]</a>
+<span class="k">def</span> <span class="nf">get_key_frame_seconds</span><span class="p">(</span><span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span>
+                                             <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">]):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Get seconds of key frames in the input video.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">key_frames</span> <span class="o">=</span> <span class="n">extract_key_frames</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="n">ts</span> <span class="o">=</span> <span class="p">[</span><span class="nb">float</span><span class="p">(</span><span class="n">f</span><span class="o">.</span><span class="n">pts</span> <span class="o">*</span> <span class="n">f</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">key_frames</span><span class="p">]</span>
+    <span class="n">ts</span><span class="o">.</span><span class="n">sort</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">ts</span></div>
+
+
+
+<div class="viewcode-block" id="extract_video_frames_uniformly_by_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds">[docs]</a>
+<span class="k">def</span> <span class="nf">extract_video_frames_uniformly_by_seconds</span><span class="p">(</span>
+        <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+        <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span><span class="p">,</span>
+        <span class="n">duration</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Extract video frames uniformly by seconds.</span>
+<span class="sd">        :param input_video: input video path or av.container.InputContainer.</span>
+<span class="sd">        :param frame_num: the number of frames to be extracted uniformly from</span>
+<span class="sd">            each video split by duration.</span>
+<span class="sd">        :param duration: duration of each video split in seconds.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">video_duration</span> <span class="o">=</span> <span class="n">get_video_duration</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="n">timestamps</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">video_duration</span><span class="p">,</span> <span class="n">duration</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+
+    <span class="n">all_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">timestamps</span><span class="p">)):</span>
+        <span class="n">output_buffer</span> <span class="o">=</span> <span class="n">cut_video_by_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span>
+                                             <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span> <span class="o">-</span> <span class="mi">1</span><span class="p">],</span> <span class="n">timestamps</span><span class="p">[</span><span class="n">i</span><span class="p">])</span>
+        <span class="k">if</span> <span class="n">output_buffer</span><span class="p">:</span>
+            <span class="n">cut_inp_container</span> <span class="o">=</span> <span class="n">av</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">output_buffer</span><span class="p">,</span> <span class="nb">format</span><span class="o">=</span><span class="s1">&#39;mp4&#39;</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;r&#39;</span><span class="p">)</span>
+            <span class="n">key_frames</span> <span class="o">=</span> <span class="n">extract_video_frames_uniformly</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">,</span>
+                                                        <span class="n">frame_num</span><span class="o">=</span><span class="n">frame_num</span><span class="p">)</span>
+            <span class="n">all_frames</span><span class="o">.</span><span class="n">extend</span><span class="p">(</span><span class="n">key_frames</span><span class="p">)</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">cut_inp_container</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">all_frames</span></div>
+
+
+
+<div class="viewcode-block" id="extract_video_frames_uniformly">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly">[docs]</a>
+<span class="k">def</span> <span class="nf">extract_video_frames_uniformly</span><span class="p">(</span>
+    <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+    <span class="n">frame_num</span><span class="p">:</span> <span class="n">PositiveInt</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract a number of video frames uniformly within the video duration.</span>
+
+<span class="sd">    :param input_video: input video path or container.</span>
+<span class="sd">    :param frame_num: The number of frames to be extracted. If it&#39;s 1, only the</span>
+<span class="sd">        middle frame will be extracted. If it&#39;s 2, only the first and the last</span>
+<span class="sd">        frames will be extracted. If it&#39;s larger than 2, in addition to the</span>
+<span class="sd">        first and the last frames, other frames will be extracted uniformly</span>
+<span class="sd">        within the video duration.</span>
+<span class="sd">    :return: a list of extracted frames.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># load the input video</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="n">input_video_stream</span> <span class="o">=</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">total_frame_num</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">frames</span>
+    <span class="k">if</span> <span class="n">total_frame_num</span> <span class="o">&lt;</span> <span class="n">frame_num</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;Number of frames to be extracted is larger than the &#39;</span>
+                       <span class="s1">&#39;total number of frames in this video. Set it to the &#39;</span>
+                       <span class="s1">&#39;total number of frames.&#39;</span><span class="p">)</span>
+        <span class="n">frame_num</span> <span class="o">=</span> <span class="n">total_frame_num</span>
+    <span class="c1"># calculate the frame seconds to be extracted</span>
+    <span class="n">duration</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">duration</span> <span class="o">*</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+    <span class="k">if</span> <span class="n">frame_num</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+        <span class="n">extract_seconds</span> <span class="o">=</span> <span class="p">[</span><span class="n">duration</span> <span class="o">/</span> <span class="mi">2</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">step</span> <span class="o">=</span> <span class="n">duration</span> <span class="o">/</span> <span class="p">(</span><span class="n">frame_num</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">extract_seconds</span> <span class="o">=</span> <span class="p">[</span><span class="n">step</span> <span class="o">*</span> <span class="n">i</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">frame_num</span><span class="p">)]</span>
+
+    <span class="c1"># group durations according to the seconds of key frames</span>
+    <span class="n">key_frame_seconds</span> <span class="o">=</span> <span class="n">get_key_frame_seconds</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="k">if</span> <span class="mf">0.0</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">key_frame_seconds</span><span class="p">:</span>
+        <span class="n">key_frame_seconds</span> <span class="o">=</span> <span class="p">[</span><span class="mf">0.0</span><span class="p">]</span> <span class="o">+</span> <span class="n">key_frame_seconds</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">key_frame_seconds</span><span class="p">)</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+        <span class="n">second_groups</span> <span class="o">=</span> <span class="p">[</span><span class="n">extract_seconds</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">second_groups</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">idx</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">group_id</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">curr_group</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">curr_upper_bound_ts</span> <span class="o">=</span> <span class="n">key_frame_seconds</span><span class="p">[</span><span class="n">group_id</span> <span class="o">+</span> <span class="mi">1</span><span class="p">]</span>
+        <span class="k">while</span> <span class="n">idx</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">extract_seconds</span><span class="p">):</span>
+            <span class="n">curr_ts</span> <span class="o">=</span> <span class="n">extract_seconds</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+            <span class="k">if</span> <span class="n">curr_ts</span> <span class="o">&lt;</span> <span class="n">curr_upper_bound_ts</span><span class="p">:</span>
+                <span class="n">curr_group</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_ts</span><span class="p">)</span>
+                <span class="n">idx</span> <span class="o">+=</span> <span class="mi">1</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">second_groups</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_group</span><span class="p">)</span>
+                <span class="n">group_id</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="n">curr_group</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">if</span> <span class="n">group_id</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">key_frame_seconds</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="k">break</span>
+                <span class="n">curr_upper_bound_ts</span> <span class="o">=</span> <span class="n">key_frame_seconds</span><span class="p">[</span><span class="n">group_id</span> <span class="o">+</span> <span class="mi">1</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">curr_group</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">second_groups</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">curr_group</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">idx</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">extract_seconds</span><span class="p">):</span>
+            <span class="n">second_groups</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">extract_seconds</span><span class="p">[</span><span class="n">idx</span><span class="p">:])</span>
+
+    <span class="c1"># extract frames by their group&#39;s key frames</span>
+    <span class="n">extracted_frames</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">time_base</span> <span class="o">=</span> <span class="n">input_video_stream</span><span class="o">.</span><span class="n">time_base</span>
+    <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">second_group</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">second_groups</span><span class="p">):</span>
+        <span class="n">key_frame_second</span> <span class="o">=</span> <span class="n">key_frame_seconds</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">second_group</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="k">continue</span>
+        <span class="k">if</span> <span class="n">key_frame_second</span> <span class="o">==</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="c1"># search from the beginning</span>
+            <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+            <span class="n">search_idx</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+            <span class="n">find_all</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;=</span> <span class="n">curr_pts</span><span class="p">:</span>
+                    <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                    <span class="n">search_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="k">if</span> <span class="n">search_idx</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">second_group</span><span class="p">):</span>
+                        <span class="n">find_all</span> <span class="o">=</span> <span class="kc">True</span>
+                        <span class="k">break</span>
+                    <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">find_all</span> <span class="ow">and</span> <span class="n">frame</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="c1"># add the last frame</span>
+                <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># search from a key frame</span>
+            <span class="n">container</span><span class="o">.</span><span class="n">seek</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">key_frame_second</span> <span class="o">*</span> <span class="mf">1e6</span><span class="p">))</span>
+            <span class="n">search_idx</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+            <span class="n">find_all</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">demux</span><span class="p">(</span><span class="n">input_video_stream</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">packet</span><span class="o">.</span><span class="n">decode</span><span class="p">():</span>
+                    <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;=</span> <span class="n">curr_pts</span><span class="p">:</span>
+                        <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+                        <span class="n">search_idx</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="k">if</span> <span class="n">search_idx</span> <span class="o">&gt;=</span> <span class="nb">len</span><span class="p">(</span><span class="n">second_group</span><span class="p">):</span>
+                            <span class="n">find_all</span> <span class="o">=</span> <span class="kc">True</span>
+                            <span class="k">break</span>
+                        <span class="n">curr_pts</span> <span class="o">=</span> <span class="n">second_group</span><span class="p">[</span><span class="n">search_idx</span><span class="p">]</span> <span class="o">/</span> <span class="n">time_base</span>
+                <span class="k">if</span> <span class="n">find_all</span><span class="p">:</span>
+                    <span class="k">break</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">find_all</span> <span class="ow">and</span> <span class="n">frame</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="c1"># add the last frame</span>
+                <span class="n">extracted_frames</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">frame</span><span class="p">)</span>
+
+    <span class="c1"># if the container is opened in this function, close it</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">extracted_frames</span></div>
+
+
+
+<div class="viewcode-block" id="extract_audio_from_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.extract_audio_from_video">[docs]</a>
+<span class="k">def</span> <span class="nf">extract_audio_from_video</span><span class="p">(</span>
+    <span class="n">input_video</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">],</span>
+    <span class="n">output_audio</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">start_seconds</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+    <span class="n">end_seconds</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="n">stream_indexes</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Extract audio data for the given video.</span>
+
+<span class="sd">    :param input_video: input video. Can be a video path or an</span>
+<span class="sd">        av.container.InputContainer.</span>
+<span class="sd">    :param output_audio: output audio path. If it&#39;s None, the audio data won&#39;t</span>
+<span class="sd">        be written to file. If stream_indexes is not None, it will output</span>
+<span class="sd">        multiple audio files with original filename and the stream indexes.</span>
+<span class="sd">        Default: None.</span>
+<span class="sd">    :param start_seconds: the start seconds to extract audio data. Default: 0,</span>
+<span class="sd">        which means extract from the start of the video.</span>
+<span class="sd">    :param end_seconds: the end seconds to stop extracting audio data. If it&#39;s</span>
+<span class="sd">        None, the extraction won&#39;t stop until the end of the video. Default:</span>
+<span class="sd">        None.</span>
+<span class="sd">    :param stream_indexes: there might be multiple audio streams in the video,</span>
+<span class="sd">        so we need to decide which audio streams with stream_indexes will be</span>
+<span class="sd">        extracted. It can be a single index or a list of indexes. If it&#39;s None,</span>
+<span class="sd">        all audio streams will be extracted. Default: None.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">input_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+        <span class="n">input_container</span> <span class="o">=</span> <span class="n">input_video</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Unsupported type of input_video. Should be one of &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[str, av.container.InputContainer], but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">input_video</span><span class="p">)</span><span class="si">}</span><span class="s1">].&#39;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_audio</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">output_audio</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;mp3&#39;</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Now we only support export the audios into `mp3` &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;format, but given &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;[</span><span class="si">{</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">splitext</span><span class="p">(</span><span class="n">output_audio</span><span class="p">)[</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="c1"># no audios in the video</span>
+    <span class="n">num_audio_streams</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">input_container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">stream_indexes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">valid_stream_indexes</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="n">num_audio_streams</span><span class="p">))</span>
+    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">stream_indexes</span><span class="p">,</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="n">valid_stream_indexes</span> <span class="o">=</span> <span class="p">[</span><span class="n">stream_indexes</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="c1"># remove indexes that are larger than the total number of audio streams</span>
+        <span class="n">valid_stream_indexes</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">idx</span> <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">stream_indexes</span> <span class="k">if</span> <span class="n">idx</span> <span class="o">&lt;</span> <span class="n">num_audio_streams</span>
+        <span class="p">]</span>
+    <span class="c1"># no valid expected audio streams</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">valid_stream_indexes</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">[],</span> <span class="p">[],</span> <span class="n">valid_stream_indexes</span>
+
+    <span class="n">audio_data_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">audio_sampling_rate_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">valid_stream_indexes</span><span class="p">:</span>
+        <span class="c1"># read the current audio stream</span>
+        <span class="n">input_audio_stream</span> <span class="o">=</span> <span class="n">input_container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">audio</span><span class="p">[</span><span class="n">idx</span><span class="p">]</span>
+        <span class="c1"># get the sampling rate</span>
+        <span class="n">audio_sampling_rate_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="mi">1</span> <span class="o">/</span>
+                                              <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+            <span class="c1"># if the output_audio is not None, prepare the output audio file</span>
+            <span class="n">this_output_audio</span> <span class="o">=</span> <span class="n">add_suffix_to_filename</span><span class="p">(</span><span class="n">output_audio</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;_</span><span class="si">{</span><span class="n">idx</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="n">output_container</span> <span class="o">=</span> <span class="n">load_video</span><span class="p">(</span><span class="n">this_output_audio</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span>
+            <span class="n">output_stream</span> <span class="o">=</span> <span class="n">output_container</span><span class="o">.</span><span class="n">add_stream</span><span class="p">(</span><span class="s1">&#39;mp3&#39;</span><span class="p">)</span>
+
+        <span class="c1"># get the start/end pts</span>
+        <span class="n">start_pts</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">start_seconds</span> <span class="o">/</span> <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span><span class="p">)</span>
+        <span class="n">end_pts</span> <span class="o">=</span> <span class="p">(</span><span class="n">end_seconds</span> <span class="o">/</span>
+                   <span class="n">input_audio_stream</span><span class="o">.</span><span class="n">time_base</span> <span class="k">if</span> <span class="n">end_seconds</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="n">audio_data</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">frame</span> <span class="ow">in</span> <span class="n">input_container</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">input_audio_stream</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">frame</span><span class="o">.</span><span class="n">dts</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&lt;</span> <span class="n">start_pts</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">if</span> <span class="n">end_pts</span> <span class="ow">and</span> <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">&gt;</span> <span class="n">end_pts</span><span class="p">:</span>
+                <span class="k">break</span>
+            <span class="c1"># get frame data</span>
+            <span class="n">array</span> <span class="o">=</span> <span class="n">frame</span><span class="o">.</span><span class="n">to_ndarray</span><span class="p">()[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="n">audio_data</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">array</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+                <span class="c1"># compute the right pts when writing an audio file</span>
+                <span class="n">frame</span><span class="o">.</span><span class="n">pts</span> <span class="o">-=</span> <span class="n">start_pts</span>
+                <span class="n">frame</span><span class="o">.</span><span class="n">dts</span> <span class="o">-=</span> <span class="n">start_pts</span>
+                <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="n">frame</span><span class="p">):</span>
+                    <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+        <span class="c1"># flush</span>
+        <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">packet</span> <span class="ow">in</span> <span class="n">output_stream</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="kc">None</span><span class="p">):</span>
+                <span class="n">output_container</span><span class="o">.</span><span class="n">mux</span><span class="p">(</span><span class="n">packet</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">input_video</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">input_container</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">output_audio</span><span class="p">:</span>
+            <span class="n">close_video</span><span class="p">(</span><span class="n">output_container</span><span class="p">)</span>
+        <span class="n">audio_data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">audio_data</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="n">audio_data_list</span><span class="p">,</span> <span class="n">audio_sampling_rate_list</span><span class="p">,</span> <span class="n">valid_stream_indexes</span></div>
+
+
+
+<span class="c1"># Others</span>
+<div class="viewcode-block" id="size_to_bytes">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.size_to_bytes">[docs]</a>
+<span class="k">def</span> <span class="nf">size_to_bytes</span><span class="p">(</span><span class="n">size</span><span class="p">):</span>
+    <span class="n">alphabets_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">char</span> <span class="k">for</span> <span class="n">char</span> <span class="ow">in</span> <span class="n">size</span> <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isalpha</span><span class="p">()]</span>
+    <span class="n">numbers_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">char</span> <span class="k">for</span> <span class="n">char</span> <span class="ow">in</span> <span class="n">size</span> <span class="k">if</span> <span class="n">char</span><span class="o">.</span><span class="n">isdigit</span><span class="p">()]</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">numbers_list</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Your input `size` does not contain numbers: </span><span class="si">{</span><span class="n">size</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="n">size_numbers</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">numbers_list</span><span class="p">)))</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">alphabets_list</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># by default, if users do not specify the units, the number will be</span>
+        <span class="c1"># regarded as in bytes</span>
+        <span class="k">return</span> <span class="n">size_numbers</span>
+
+    <span class="n">suffix</span> <span class="o">=</span> <span class="s1">&#39;&#39;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">alphabets_list</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+
+    <span class="k">if</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;kb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;kib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">10</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;mb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;mib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">20</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;gb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;gib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">30</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;tb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;tib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">40</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;pb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;pib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">50</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;eb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;eib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">60</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;zb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;zib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">70</span>
+    <span class="k">elif</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;yb&#39;</span> <span class="ow">or</span> <span class="n">suffix</span> <span class="o">==</span> <span class="s1">&#39;yib&#39;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">size_numbers</span> <span class="o">&lt;&lt;</span> <span class="mi">80</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;You specified unidentifiable unit: </span><span class="si">{</span><span class="n">suffix</span><span class="si">}</span><span class="s1">, &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;expected in [KB, MB, GB, TB, PB, EB, ZB, YB, &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;KiB, MiB, GiB, TiB, PiB, EiB, ZiB, YiB], &#39;</span>
+                         <span class="sa">f</span><span class="s1">&#39;(case insensitive, counted by *Bytes*).&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="insert_texts_after_placeholders">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.insert_texts_after_placeholders">[docs]</a>
+<span class="k">def</span> <span class="nf">insert_texts_after_placeholders</span><span class="p">(</span><span class="n">original_string</span><span class="p">,</span>
+                                    <span class="n">placeholders</span><span class="p">,</span>
+                                    <span class="n">new_texts</span><span class="p">,</span>
+                                    <span class="n">delimiter_in_insert_pos</span><span class="o">=</span><span class="s1">&#39; &#39;</span><span class="p">):</span>
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">placeholders</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">new_texts</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="s1">&#39;The number of placeholders and new_texts must be equal&#39;</span><span class="p">)</span>
+
+    <span class="n">modified_string</span> <span class="o">=</span> <span class="n">original_string</span>
+    <span class="k">for</span> <span class="n">placeholder</span><span class="p">,</span> <span class="n">new_text</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">placeholders</span><span class="p">,</span> <span class="n">new_texts</span><span class="p">):</span>
+        <span class="c1"># Find the index of the next occurrence of the placeholder</span>
+        <span class="n">index</span> <span class="o">=</span> <span class="n">modified_string</span><span class="o">.</span><span class="n">find</span><span class="p">(</span><span class="n">placeholder</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">index</span> <span class="o">==</span> <span class="o">-</span><span class="mi">1</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Placeholder &#39;</span><span class="si">{</span><span class="n">placeholder</span><span class="si">}</span><span class="s2">&#39; not found in the string&quot;</span><span class="p">)</span>
+        <span class="c1"># Insert new_text at the found index position</span>
+        <span class="n">modified_string</span> <span class="o">=</span> \
+            <span class="n">modified_string</span><span class="p">[:</span><span class="n">index</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="n">placeholder</span><span class="p">)]</span> <span class="o">+</span> \
+            <span class="n">delimiter_in_insert_pos</span> <span class="o">+</span> \
+            <span class="n">new_text</span> <span class="o">+</span> \
+            <span class="n">delimiter_in_insert_pos</span> <span class="o">+</span> \
+            <span class="n">modified_string</span><span class="p">[</span><span class="n">index</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="n">placeholder</span><span class="p">):]</span>
+
+    <span class="k">return</span> <span class="n">modified_string</span></div>
+
+
+
+<div class="viewcode-block" id="timecode_string_to_seconds">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.timecode_string_to_seconds">[docs]</a>
+<span class="k">def</span> <span class="nf">timecode_string_to_seconds</span><span class="p">(</span><span class="n">timecode</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Convert a timecode string to the float seconds.</span>
+
+<span class="sd">    :param timecode: the input timecode string. Must in &quot;HH:MM:SS.fff(fff)&quot;</span>
+<span class="sd">        format.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># parse the timecode string</span>
+    <span class="n">dt</span> <span class="o">=</span> <span class="n">datetime</span><span class="o">.</span><span class="n">datetime</span><span class="o">.</span><span class="n">strptime</span><span class="p">(</span><span class="n">timecode</span><span class="p">,</span> <span class="s1">&#39;%H:%M:%S.</span><span class="si">%f</span><span class="s1">&#39;</span><span class="p">)</span>
+
+    <span class="c1"># compute the start/end time in second</span>
+    <span class="n">pts</span> <span class="o">=</span> <span class="n">dt</span><span class="o">.</span><span class="n">hour</span> <span class="o">*</span> <span class="mi">3600</span> <span class="o">+</span> <span class="n">dt</span><span class="o">.</span><span class="n">minute</span> <span class="o">*</span> <span class="mi">60</span> <span class="o">+</span> <span class="n">dt</span><span class="o">.</span><span class="n">second</span> <span class="o">+</span> <span class="n">dt</span><span class="o">.</span><span class="n">microsecond</span> <span class="o">/</span> <span class="mf">1e6</span>
+    <span class="k">return</span> <span class="n">pts</span></div>
+
+
+
+<div class="viewcode-block" id="parse_string_to_roi">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.parse_string_to_roi">[docs]</a>
+<span class="k">def</span> <span class="nf">parse_string_to_roi</span><span class="p">(</span><span class="n">roi_string</span><span class="p">,</span> <span class="n">roi_type</span><span class="o">=</span><span class="s1">&#39;pixel&#39;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Convert a roi string to four number x1, y1, x2, y2 stand for the region.</span>
+<span class="sd">    When the type is &#39;pixel&#39;, (x1, y1), (x2, y2) are the locations of pixels</span>
+<span class="sd">    in the top left corner and the bottom right corner respectively. If the</span>
+<span class="sd">    roi_type is &#39;ratio&#39;, the coordinates are normalized by wights and</span>
+<span class="sd">    heights.</span>
+
+<span class="sd">    :param roi_string: the roi string</span>
+<span class="sd">    :patam roi_type: the roi string type</span>
+<span class="sd">    return tuple of (x1, y1, x2, y2) if roi_string is valid, else None</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">roi_string</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">None</span>
+
+    <span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s1">&#39;^\s*[\[\(]?\s*(\d+(?:\.\d+)?)\s*,\s*(\d+(?:\.\d+)?)\s*,\s*(\d+(?:\.\d+)?)\s*,\s*(\d+(?:\.\d+)?)\s*[\]\)]?\s*$&#39;</span>  <span class="c1"># noqa: E501</span>
+
+    <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">roi_string</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">roi_type</span> <span class="o">==</span> <span class="s1">&#39;pixel&#39;</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">num</span><span class="p">)</span> <span class="k">for</span> <span class="n">num</span> <span class="ow">in</span> <span class="n">match</span><span class="o">.</span><span class="n">groups</span><span class="p">())</span>
+        <span class="k">elif</span> <span class="n">roi_type</span> <span class="o">==</span> <span class="s1">&#39;ratio&#39;</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="mf">1.0</span><span class="p">,</span> <span class="nb">float</span><span class="p">(</span><span class="n">num</span><span class="p">))</span> <span class="k">for</span> <span class="n">num</span> <span class="ow">in</span> <span class="n">match</span><span class="o">.</span><span class="n">groups</span><span class="p">())</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s1">&#39;The roi_type must be &quot;pixel&quot; or &quot;ratio&quot;.&#39;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="kc">None</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+            <span class="s1">&#39;The roi_string must be four no negative numbers in the &#39;</span>
+            <span class="s1">&#39;format of &quot;x1, y1, x2, y2&quot;, &quot;(x1, y1, x2, y2)&quot;, or &#39;</span>
+            <span class="s1">&#39;&quot;[x1, y1, x2, y2]&quot;.&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="close_video">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.mm_utils.close_video">[docs]</a>
+<span class="k">def</span> <span class="nf">close_video</span><span class="p">(</span><span class="n">container</span><span class="p">:</span> <span class="n">av</span><span class="o">.</span><span class="n">container</span><span class="o">.</span><span class="n">InputContainer</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Close the video stream and container to avoid memory leak.</span>
+
+<span class="sd">    :param container: the video container.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">video_stream</span> <span class="ow">in</span> <span class="n">container</span><span class="o">.</span><span class="n">streams</span><span class="o">.</span><span class="n">video</span><span class="p">:</span>
+        <span class="n">video_stream</span><span class="o">.</span><span class="n">close</span><span class="p">(</span><span class="n">strict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="n">container</span><span class="o">.</span><span class="n">close</span><span class="p">()</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/model_utils.html b/_modules/data_juicer/utils/model_utils.html
new file mode 100644
index 000000000..877bb60bc
--- /dev/null
+++ b/_modules/data_juicer/utils/model_utils.html
@@ -0,0 +1,982 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.model_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.model_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.model_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">fnmatch</span>
+<span class="kn">import</span> <span class="nn">inspect</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">from</span> <span class="nn">functools</span> <span class="kn">import</span> <span class="n">partial</span>
+<span class="kn">from</span> <span class="nn">pickle</span> <span class="kn">import</span> <span class="n">UnpicklingError</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">httpx</span>
+<span class="kn">import</span> <span class="nn">multiprocess</span> <span class="k">as</span> <span class="nn">mp</span>
+<span class="kn">import</span> <span class="nn">wget</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer</span> <span class="kn">import</span> <span class="n">cuda_device_count</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.common_utils</span> <span class="kn">import</span> <span class="n">nested_access</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">AUTOINSTALL</span><span class="p">,</span> <span class="n">LazyLoader</span>
+
+<span class="kn">from</span> <span class="nn">.cache_utils</span> <span class="kn">import</span> <span class="n">DATA_JUICER_MODELS_CACHE</span> <span class="k">as</span> <span class="n">DJMC</span>
+
+<span class="n">torch</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;torch&#39;</span><span class="p">)</span>
+<span class="n">transformers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">)</span>
+<span class="n">nn</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nn&#39;</span><span class="p">,</span> <span class="s1">&#39;torch.nn&#39;</span><span class="p">)</span>
+<span class="n">fasttext</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;fasttext&#39;</span><span class="p">,</span> <span class="s1">&#39;fasttext&#39;</span><span class="p">)</span>
+<span class="n">sentencepiece</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">)</span>
+<span class="n">kenlm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;kenlm&#39;</span><span class="p">,</span> <span class="s1">&#39;kenlm&#39;</span><span class="p">)</span>
+<span class="n">nltk</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;nltk&#39;</span><span class="p">,</span> <span class="s1">&#39;nltk&#39;</span><span class="p">)</span>
+<span class="n">aes_pre</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;aes_pre&#39;</span><span class="p">,</span> <span class="s1">&#39;aesthetics_predictor&#39;</span><span class="p">)</span>
+<span class="n">vllm</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;vllm&#39;</span><span class="p">,</span> <span class="s1">&#39;vllm&#39;</span><span class="p">)</span>
+<span class="n">diffusers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;diffusers&#39;</span><span class="p">,</span> <span class="s1">&#39;diffusers&#39;</span><span class="p">)</span>
+<span class="n">ram</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;ram&#39;</span><span class="p">,</span> <span class="s1">&#39;ram.models&#39;</span><span class="p">)</span>
+<span class="n">cv2</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;cv2&#39;</span><span class="p">,</span> <span class="s1">&#39;cv2&#39;</span><span class="p">)</span>
+<span class="n">openai</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;openai&#39;</span><span class="p">,</span> <span class="s1">&#39;openai&#39;</span><span class="p">)</span>
+
+<span class="n">MODEL_ZOO</span> <span class="o">=</span> <span class="p">{}</span>
+
+<span class="c1"># Default cached models links for downloading</span>
+<span class="n">MODEL_LINKS</span> <span class="o">=</span> <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span> \
+               <span class="s1">&#39;data_juicer/models/&#39;</span>
+
+<span class="c1"># Backup cached models links for downloading</span>
+<span class="n">BACKUP_MODEL_LINKS</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="c1"># language identification model from fasttext</span>
+    <span class="s1">&#39;lid.176.bin&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dl.fbaipublicfiles.com/fasttext/supervised-models/&#39;</span><span class="p">,</span>
+
+    <span class="c1"># tokenizer and language model for English from sentencepiece and KenLM</span>
+    <span class="s1">&#39;*.sp.model&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://huggingface.co/edugp/kenlm/resolve/main/wikipedia/&#39;</span><span class="p">,</span>
+    <span class="s1">&#39;*.arpa.bin&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://huggingface.co/edugp/kenlm/resolve/main/wikipedia/&#39;</span><span class="p">,</span>
+
+    <span class="c1"># sentence split model from nltk punkt</span>
+    <span class="s1">&#39;punkt.*.pickle&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/&#39;</span>
+    <span class="s1">&#39;data_juicer/models/&#39;</span><span class="p">,</span>
+
+    <span class="c1"># ram</span>
+    <span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">:</span>
+    <span class="s1">&#39;http://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/data_juicer/models/&#39;</span>
+    <span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">,</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="get_backup_model_link">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.get_backup_model_link">[docs]</a>
+<span class="k">def</span> <span class="nf">get_backup_model_link</span><span class="p">(</span><span class="n">model_name</span><span class="p">):</span>
+    <span class="k">for</span> <span class="n">pattern</span><span class="p">,</span> <span class="n">url</span> <span class="ow">in</span> <span class="n">BACKUP_MODEL_LINKS</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="n">fnmatch</span><span class="o">.</span><span class="n">fnmatch</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">pattern</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">url</span>
+    <span class="k">return</span> <span class="kc">None</span></div>
+
+
+
+<div class="viewcode-block" id="check_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.check_model">[docs]</a>
+<span class="k">def</span> <span class="nf">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Check whether a model exists in DATA_JUICER_MODELS_CACHE.</span>
+<span class="sd">    If exists, return its full path.</span>
+<span class="sd">    Else, download it from cached models links.</span>
+
+<span class="sd">    :param model_name: a specified model name</span>
+<span class="sd">    :param force: Whether to download model forcefully or not, Sometimes</span>
+<span class="sd">        the model file maybe incomplete for some reason, so need to</span>
+<span class="sd">        download again forcefully.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># check for local model</span>
+    <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_name</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">model_name</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">DJMC</span><span class="p">):</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">DJMC</span><span class="p">)</span>
+
+    <span class="c1"># check if the specified model exists. If it does not exist, download it</span>
+    <span class="n">cached_model_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">DJMC</span><span class="p">,</span> <span class="n">model_name</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">force</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">cached_model_path</span><span class="p">):</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">cached_model_path</span><span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Model [</span><span class="si">{</span><span class="n">cached_model_path</span><span class="si">}</span><span class="s1">] is invalid. Forcing download...&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Model [</span><span class="si">{</span><span class="n">cached_model_path</span><span class="si">}</span><span class="s1">] is not found. Downloading...&#39;</span><span class="p">)</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">model_link</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">MODEL_LINKS</span><span class="p">,</span> <span class="n">model_name</span><span class="p">)</span>
+            <span class="n">wget</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">model_link</span><span class="p">,</span> <span class="n">cached_model_path</span><span class="p">)</span>
+        <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">backup_model_link</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                    <span class="n">get_backup_model_link</span><span class="p">(</span><span class="n">model_name</span><span class="p">),</span> <span class="n">model_name</span><span class="p">)</span>
+                <span class="n">wget</span><span class="o">.</span><span class="n">download</span><span class="p">(</span><span class="n">backup_model_link</span><span class="p">,</span> <span class="n">cached_model_path</span><span class="p">)</span>
+            <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">error</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;Downloading model [</span><span class="si">{</span><span class="n">model_name</span><span class="si">}</span><span class="s1">] error. &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;Please retry later or download it into </span><span class="si">{</span><span class="n">DJMC</span><span class="si">}</span><span class="s1"> &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;manually from </span><span class="si">{</span><span class="n">model_link</span><span class="si">}</span><span class="s1"> or </span><span class="si">{</span><span class="n">backup_model_link</span><span class="si">}</span><span class="s1"> &#39;</span><span class="p">)</span>
+                <span class="n">exit</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">cached_model_path</span></div>
+
+
+
+<div class="viewcode-block" id="APIModel">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.APIModel">[docs]</a>
+<span class="k">class</span> <span class="nc">APIModel</span><span class="p">:</span>
+
+<div class="viewcode-block" id="APIModel.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.APIModel.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">endpoint</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">response_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initializes an instance of the APIModel class.</span>
+
+<span class="sd">        :param model: The name of the model to be used for making API</span>
+<span class="sd">            calls. This should correspond to a valid model identifier</span>
+<span class="sd">            recognized by the API server.</span>
+<span class="sd">        :param endpoint: The URL endpoint for the API. If provided as a</span>
+<span class="sd">            relative path, it will be appended to the base URL (defined by the</span>
+<span class="sd">            `OPENAI_BASE_URL` environment variable or through an additional</span>
+<span class="sd">            `base_url` parameter). Defaults to &#39;/chat/completions&#39; for</span>
+<span class="sd">            OpenAI compatibility.</span>
+<span class="sd">        :param response_path: A dot-separated string specifying the path to</span>
+<span class="sd">            extract the desired content from the API response. The default</span>
+<span class="sd">            value is &#39;choices.0.message.content&#39;, which corresponds to the</span>
+<span class="sd">            typical structure of an OpenAI API response.</span>
+<span class="sd">        :param kwargs: Additional keyword arguments for configuring the</span>
+<span class="sd">            internal OpenAI client.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">endpoint</span> <span class="o">=</span> <span class="n">endpoint</span> <span class="ow">or</span> <span class="s1">&#39;/chat/completions&#39;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_path</span> <span class="o">=</span> <span class="n">response_path</span> <span class="ow">or</span> <span class="s1">&#39;choices.0.message.content&#39;</span>
+
+        <span class="n">client_args</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_filter_arguments</span><span class="p">(</span><span class="n">openai</span><span class="o">.</span><span class="n">OpenAI</span><span class="p">,</span> <span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_client</span> <span class="o">=</span> <span class="n">openai</span><span class="o">.</span><span class="n">OpenAI</span><span class="p">(</span><span class="o">**</span><span class="n">client_args</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">messages</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Sends messages to the configured API model and returns the parsed</span>
+<span class="sd">        response content.</span>
+
+<span class="sd">        :param messages: A list of message dictionaries to send to the API.</span>
+<span class="sd">                         Each message should have a &#39;role&#39; (e.g., &#39;user&#39;,</span>
+<span class="sd">                         &#39;assistant&#39;) and &#39;content&#39; (the message text).</span>
+<span class="sd">        :param kwargs: Additional parameters for the API call.</span>
+<span class="sd">        :return: The parsed response content from the API call, or an empty</span>
+<span class="sd">            string if an error occurs.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">body</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s1">&#39;messages&#39;</span><span class="p">:</span> <span class="n">messages</span><span class="p">,</span>
+            <span class="s1">&#39;model&#39;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+        <span class="p">}</span>
+        <span class="n">body</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">stream</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;stream&#39;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+        <span class="n">stream_cls</span> <span class="o">=</span> <span class="n">openai</span><span class="o">.</span><span class="n">Stream</span><span class="p">[</span><span class="n">openai</span><span class="o">.</span><span class="n">types</span><span class="o">.</span><span class="n">chat</span><span class="o">.</span><span class="n">ChatCompletionChunk</span><span class="p">]</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_client</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">endpoint</span><span class="p">,</span>
+                                         <span class="n">body</span><span class="o">=</span><span class="n">body</span><span class="p">,</span>
+                                         <span class="n">cast_to</span><span class="o">=</span><span class="n">httpx</span><span class="o">.</span><span class="n">Response</span><span class="p">,</span>
+                                         <span class="n">stream</span><span class="o">=</span><span class="n">stream</span><span class="p">,</span>
+                                         <span class="n">stream_cls</span><span class="o">=</span><span class="n">stream_cls</span><span class="p">)</span>
+            <span class="n">result</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">json</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">nested_access</span><span class="p">(</span><span class="n">result</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_path</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">exception</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+            <span class="k">return</span> <span class="s1">&#39;&#39;</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_filter_arguments</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="n">args_dict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Filters and returns only the valid arguments for a given function</span>
+<span class="sd">        signature.</span>
+
+<span class="sd">        :param func: The function or callable to inspect.</span>
+<span class="sd">        :param args_dict: A dictionary of argument names and values to filter.</span>
+<span class="sd">        :return: A dictionary containing only the arguments that match the</span>
+<span class="sd">                 function&#39;s signature, preserving any **kwargs if applicable.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">inspect</span><span class="o">.</span><span class="n">signature</span><span class="p">(</span><span class="n">func</span><span class="p">)</span><span class="o">.</span><span class="n">parameters</span>
+        <span class="n">filtered_args</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">param</span> <span class="ow">in</span> <span class="n">params</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="c1"># If **kwargs is found, return without change</span>
+            <span class="k">if</span> <span class="n">param</span><span class="o">.</span><span class="n">kind</span> <span class="o">==</span> <span class="n">inspect</span><span class="o">.</span><span class="n">Parameter</span><span class="o">.</span><span class="n">VAR_KEYWORD</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">args_dict</span>
+            <span class="c1"># Collect valid parameters</span>
+            <span class="k">if</span> <span class="n">name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">{</span><span class="s1">&#39;self&#39;</span><span class="p">,</span> <span class="s1">&#39;cls&#39;</span><span class="p">}</span> <span class="ow">and</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">args_dict</span><span class="p">:</span>
+                <span class="n">filtered_args</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">args_dict</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">filtered_args</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_api_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_api_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_api_model</span><span class="p">(</span><span class="n">model</span><span class="p">,</span>
+                      <span class="o">*</span><span class="p">,</span>
+                      <span class="n">endpoint</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                      <span class="n">response_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                      <span class="n">return_processor</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                      <span class="n">processor_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                      <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Creates a callable API model for interacting with OpenAI-compatible API.</span>
+<span class="sd">    The callable supports custom response parsing and works with proxy servers</span>
+<span class="sd">    that may be incompatible.</span>
+
+<span class="sd">    :param model: The name of the model to interact with.</span>
+<span class="sd">    :param endpoint: The URL endpoint for the API. If provided as a relative</span>
+<span class="sd">        path, it will be appended to the base URL (defined by the</span>
+<span class="sd">        `OPENAI_BASE_URL` environment variable or through an additional</span>
+<span class="sd">        `base_url` parameter). By default, it is set to</span>
+<span class="sd">        &#39;/chat/completions&#39; for OpenAI compatibility.</span>
+<span class="sd">    :param response_path: The dot-separated  path to extract desired content</span>
+<span class="sd">        from the API response. Defaults to &#39;choices.0.message.content&#39;.</span>
+<span class="sd">    :param return_processor: A boolean flag indicating whether to return a</span>
+<span class="sd">        processor along with the model. The processor can be used for tasks</span>
+<span class="sd">        like tokenization or encoding. Defaults to False.</span>
+<span class="sd">    :param processor_config: A dictionary containing configuration parameters</span>
+<span class="sd">        for initializing a Hugging Face processor. It is only relevant if</span>
+<span class="sd">        `return_processor` is set to True.</span>
+<span class="sd">    :param model_params: Additional parameters for configuring the API model.</span>
+<span class="sd">    :return: A callable APIModel instance, and optionally a processor</span>
+<span class="sd">        if `return_processor` is True.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">client</span> <span class="o">=</span> <span class="n">APIModel</span><span class="p">(</span><span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                      <span class="n">endpoint</span><span class="o">=</span><span class="n">endpoint</span><span class="p">,</span>
+                      <span class="n">response_path</span><span class="o">=</span><span class="n">response_path</span><span class="p">,</span>
+                      <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_processor</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">client</span>
+
+    <span class="k">def</span> <span class="nf">get_processor</span><span class="p">():</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="kn">import</span> <span class="nn">tiktoken</span>
+            <span class="k">return</span> <span class="n">tiktoken</span><span class="o">.</span><span class="n">encoding_for_model</span><span class="p">(</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="kn">import</span> <span class="nn">dashscope</span>
+            <span class="k">return</span> <span class="n">dashscope</span><span class="o">.</span><span class="n">get_tokenizer</span><span class="p">(</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">model</span><span class="p">,</span> <span class="o">**</span><span class="n">processor_config</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">processor</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="s1">&#39;Failed to initialize the processor. Please check the following:</span><span class="se">\n</span><span class="s1">&#39;</span>  <span class="c1"># noqa: E501</span>
+            <span class="s2">&quot;- For OpenAI models: Install &#39;tiktoken&#39; via `pip install tiktoken`.</span><span class="se">\n</span><span class="s2">&quot;</span>  <span class="c1"># noqa: E501</span>
+            <span class="s2">&quot;- For DashScope models: Install both &#39;dashscope&#39; and &#39;tiktoken&#39; via `pip install dashscope tiktoken`.</span><span class="se">\n</span><span class="s2">&quot;</span>  <span class="c1"># noqa: E501</span>
+            <span class="s2">&quot;- For custom models: Use the &#39;processor_config&#39; parameter to configure a Hugging Face processor.&quot;</span>  <span class="c1"># noqa: E501</span>
+        <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">processor_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> \
+            <span class="s1">&#39;pretrained_model_name_or_path&#39;</span> <span class="ow">in</span> <span class="n">processor_config</span><span class="p">:</span>
+        <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="o">**</span><span class="n">processor_config</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">processor</span> <span class="o">=</span> <span class="n">get_processor</span><span class="p">()</span>
+    <span class="k">return</span> <span class="p">(</span><span class="n">client</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_diffusion_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diffusion_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_diffusion_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">diffusion_type</span><span class="p">,</span>
+                            <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Prepare and load an Diffusion model from HuggingFace.</span>
+
+<span class="sd">        :param pretrained_model_name_or_path: input Diffusion model name</span>
+<span class="sd">            or local path to the model</span>
+<span class="sd">        :param diffusion_type: the use of the diffusion model. It can be</span>
+<span class="sd">            &#39;image2image&#39;, &#39;text2image&#39;, &#39;inpainting&#39;</span>
+<span class="sd">        :return: a Diffusion model.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;torch&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">])</span>
+
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="n">diffusion_type_to_pipeline</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;image2image&#39;</span><span class="p">:</span> <span class="n">diffusers</span><span class="o">.</span><span class="n">AutoPipelineForImage2Image</span><span class="p">,</span>
+        <span class="s1">&#39;text2image&#39;</span><span class="p">:</span> <span class="n">diffusers</span><span class="o">.</span><span class="n">AutoPipelineForText2Image</span><span class="p">,</span>
+        <span class="s1">&#39;inpainting&#39;</span><span class="p">:</span> <span class="n">diffusers</span><span class="o">.</span><span class="n">AutoPipelineForInpainting</span>
+    <span class="p">}</span>
+
+    <span class="k">if</span> <span class="n">diffusion_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">diffusion_type_to_pipeline</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;Not support </span><span class="si">{</span><span class="n">diffusion_type</span><span class="si">}</span><span class="s1"> diffusion_type for diffusion &#39;</span>
+            <span class="s1">&#39;model. Can only be one of &#39;</span>
+            <span class="s1">&#39;[&quot;image2image&quot;, &quot;text2image&quot;, &quot;inpainting&quot;].&#39;</span><span class="p">)</span>
+
+    <span class="n">pipeline</span> <span class="o">=</span> <span class="n">diffusion_type_to_pipeline</span><span class="p">[</span><span class="n">diffusion_type</span><span class="p">]</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">pipeline</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                     <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_fasttext_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_fasttext_model</span><span class="p">(</span><span class="n">model_name</span><span class="o">=</span><span class="s1">&#39;lid.176.bin&#39;</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a fasttext model.</span>
+
+<span class="sd">    :param model_name: input model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading fasttext language identification model...&#39;</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">fasttext</span><span class="o">.</span><span class="n">load_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">))</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">ft_model</span> <span class="o">=</span> <span class="n">fasttext</span><span class="o">.</span><span class="n">load_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">ft_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_huggingface_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_huggingface_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                              <span class="o">*</span><span class="p">,</span>
+                              <span class="n">return_model</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                              <span class="n">return_pipe</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                              <span class="n">pipe_task</span><span class="o">=</span><span class="s1">&#39;text-generation&#39;</span><span class="p">,</span>
+                              <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a HuggingFace model with the correspoding processor.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param return_model: return model or not</span>
+<span class="sd">    :param return_pipe: whether to wrap model into pipeline</span>
+<span class="sd">    :param model_params: model initialization parameters.</span>
+<span class="sd">    :return: a tuple of (model, input processor) if `return_model` is True;</span>
+<span class="sd">        otherwise, only the processor is returned.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># require torch for transformer model</span>
+    <span class="n">AUTOINSTALL</span><span class="o">.</span><span class="n">check</span><span class="p">([</span><span class="s1">&#39;torch&#39;</span><span class="p">])</span>
+
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">return_model</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s1">&#39;auto_map&#39;</span><span class="p">):</span>
+            <span class="n">class_name</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">k</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">config</span><span class="o">.</span><span class="n">auto_map</span> <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;AutoModel&#39;</span><span class="p">)),</span>
+                <span class="s1">&#39;AutoModel&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># TODO: What happens if more than one</span>
+            <span class="n">class_name</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">architectures</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="n">model_class</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">transformers</span><span class="p">,</span> <span class="n">class_name</span><span class="p">)</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_class</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                            <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">return_pipe</span><span class="p">:</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">processor</span><span class="p">,</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PreTrainedTokenizerBase</span><span class="p">):</span>
+                <span class="n">pipe_params</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="n">processor</span><span class="p">}</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">processor</span><span class="p">,</span> <span class="n">transformers</span><span class="o">.</span><span class="n">SequenceFeatureExtractor</span><span class="p">):</span>
+                <span class="n">pipe_params</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;feature_extractor&#39;</span><span class="p">:</span> <span class="n">processor</span><span class="p">}</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">processor</span><span class="p">,</span> <span class="n">transformers</span><span class="o">.</span><span class="n">BaseImageProcessor</span><span class="p">):</span>
+                <span class="n">pipe_params</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;image_processor&#39;</span><span class="p">:</span> <span class="n">processor</span><span class="p">}</span>
+            <span class="n">pipe</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">pipeline</span><span class="p">(</span><span class="n">task</span><span class="o">=</span><span class="n">pipe_task</span><span class="p">,</span>
+                                         <span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                                         <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+                                         <span class="o">**</span><span class="n">pipe_params</span><span class="p">)</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">pipe</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span> <span class="k">if</span> <span class="n">return_model</span> <span class="k">else</span> <span class="n">processor</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_kenlm_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_kenlm_model</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span> <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1">.arpa.bin&#39;</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a kenlm model.</span>
+
+<span class="sd">    :param model_name: input model name in formatting syntax.</span>
+<span class="sd">    :param lang: language to render model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lang</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading kenlm language model...&#39;</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">kenlm</span><span class="o">.</span><span class="n">Model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">),</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">kenlm_model</span> <span class="o">=</span> <span class="n">kenlm</span><span class="o">.</span><span class="n">Model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                                  <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">kenlm_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_nltk_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_nltk_model</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span> <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;punkt.</span><span class="si">{}</span><span class="s1">.pickle&#39;</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a nltk punkt model.</span>
+
+<span class="sd">    :param model_name: input model name in formatting syntax</span>
+<span class="sd">    :param lang: language to render model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="n">nltk_to_punkt</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s1">&#39;en&#39;</span><span class="p">:</span> <span class="s1">&#39;english&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;fr&#39;</span><span class="p">:</span> <span class="s1">&#39;french&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;pt&#39;</span><span class="p">:</span> <span class="s1">&#39;portuguese&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;es&#39;</span><span class="p">:</span> <span class="s1">&#39;spanish&#39;</span>
+    <span class="p">}</span>
+    <span class="k">assert</span> <span class="n">lang</span> <span class="ow">in</span> <span class="n">nltk_to_punkt</span><span class="o">.</span><span class="n">keys</span><span class="p">(</span>
+    <span class="p">),</span> <span class="s1">&#39;lang must be one of the following: </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+        <span class="nb">list</span><span class="p">(</span><span class="n">nltk_to_punkt</span><span class="o">.</span><span class="n">keys</span><span class="p">()))</span>
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">nltk_to_punkt</span><span class="p">[</span><span class="n">lang</span><span class="p">])</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading nltk punkt split model...&#39;</span><span class="p">)</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">),</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">nltk_model</span> <span class="o">=</span> <span class="n">nltk</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                                    <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">nltk_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_opencv_classifier">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_opencv_classifier">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_opencv_classifier</span><span class="p">(</span><span class="n">model_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">cv2</span><span class="o">.</span><span class="n">CascadeClassifier</span><span class="p">(</span><span class="n">model_path</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_recognizeAnything_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_recognizeAnything_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_recognizeAnything_model</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="s1">&#39;ram_plus_swin_large_14m.pth&#39;</span><span class="p">,</span>
+        <span class="n">input_size</span><span class="o">=</span><span class="mi">384</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load recognizeAnything model.</span>
+
+<span class="sd">    :param model_name: input model name.</span>
+<span class="sd">    :param input_size: the input size of the model.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading recognizeAnything model...&#39;</span><span class="p">)</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">ram</span><span class="o">.</span><span class="n">ram_plus</span><span class="p">(</span>
+            <span class="n">pretrained</span><span class="o">=</span><span class="n">check_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">),</span>
+            <span class="n">image_size</span><span class="o">=</span><span class="n">input_size</span><span class="p">,</span>
+            <span class="n">vit</span><span class="o">=</span><span class="s1">&#39;swin_l&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="p">(</span><span class="ne">RuntimeError</span><span class="p">,</span> <span class="n">UnpicklingError</span><span class="p">)</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">ram</span><span class="o">.</span><span class="n">ram_plus</span><span class="p">(</span><span class="n">pretrained</span><span class="o">=</span><span class="n">check_model</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                             <span class="n">image_size</span><span class="o">=</span><span class="n">input_size</span><span class="p">,</span>
+                             <span class="n">vit</span><span class="o">=</span><span class="s1">&#39;swin_l&#39;</span><span class="p">)</span>
+    <span class="n">device</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="s1">&#39;cpu&#39;</span><span class="p">)</span>
+    <span class="n">model</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_sentencepiece_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">model_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a sentencepiece model.</span>
+
+<span class="sd">    :param model_path: input model path</span>
+<span class="sd">    :return: model instance</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s1">&#39;Loading sentencepiece model...&#39;</span><span class="p">)</span>
+    <span class="n">sentencepiece_model</span> <span class="o">=</span> <span class="n">sentencepiece</span><span class="o">.</span><span class="n">SentencePieceProcessor</span><span class="p">()</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">sentencepiece_model</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_path</span><span class="p">))</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">sentencepiece_model</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">model_path</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">sentencepiece_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_sentencepiece_for_lang">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_sentencepiece_for_lang</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span>
+                                   <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1">.sp.model&#39;</span><span class="p">,</span>
+                                   <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a sentencepiece model for specific langauge.</span>
+
+<span class="sd">    :param lang: language to render model name</span>
+<span class="sd">    :param name_pattern: pattern to render the model name</span>
+<span class="sd">    :return: model instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lang</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">prepare_sentencepiece_model</span><span class="p">(</span><span class="n">model_name</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_simple_aesthetics_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_simple_aesthetics_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_simple_aesthetics_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                    <span class="o">*</span><span class="p">,</span>
+                                    <span class="n">return_model</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                                    <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a simple aesthetics model.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param return_model: return model or not</span>
+<span class="sd">    :return: a tuple (model, input processor) if `return_model` is True;</span>
+<span class="sd">        otherwise, only the processor is returned.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">CLIPProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_model</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">processor</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">if</span> <span class="s1">&#39;v1&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span><span class="p">:</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">aes_pre</span><span class="o">.</span><span class="n">AestheticsPredictorV1</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="p">(</span><span class="s1">&#39;v2&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span>
+              <span class="ow">and</span> <span class="s1">&#39;linear&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span><span class="p">):</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">aes_pre</span><span class="o">.</span><span class="n">AestheticsPredictorV2Linear</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="p">(</span><span class="s1">&#39;v2&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span>
+              <span class="ow">and</span> <span class="s1">&#39;relu&#39;</span> <span class="ow">in</span> <span class="n">pretrained_model_name_or_path</span><span class="p">):</span>
+            <span class="n">model</span> <span class="o">=</span> <span class="n">aes_pre</span><span class="o">.</span><span class="n">AestheticsPredictorV2ReLU</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s1">&#39;Not support </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">))</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_spacy_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_spacy_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_spacy_model</span><span class="p">(</span><span class="n">lang</span><span class="p">,</span>
+                        <span class="n">name_pattern</span><span class="o">=</span><span class="s1">&#39;</span><span class="si">{}</span><span class="s1">_core_web_md-3.7.0&#39;</span><span class="p">,</span>
+                        <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare spacy model for specific language.</span>
+
+<span class="sd">    :param lang: language of sapcy model. Should be one of [&quot;zh&quot;,</span>
+<span class="sd">        &quot;en&quot;]</span>
+<span class="sd">    :return: corresponding spacy model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="kn">import</span> <span class="nn">spacy</span>
+
+    <span class="k">assert</span> <span class="n">lang</span> <span class="ow">in</span> <span class="p">[</span><span class="s1">&#39;zh&#39;</span><span class="p">,</span> <span class="s1">&#39;en&#39;</span><span class="p">],</span> <span class="s1">&#39;Diversity only support zh and en&#39;</span>
+    <span class="n">model_name</span> <span class="o">=</span> <span class="n">name_pattern</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">lang</span><span class="p">)</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Loading spacy model [</span><span class="si">{</span><span class="n">model_name</span><span class="si">}</span><span class="s1">]...&#39;</span><span class="p">)</span>
+    <span class="n">compressed_model</span> <span class="o">=</span> <span class="s1">&#39;</span><span class="si">{}</span><span class="s1">.tar.gz&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">model_name</span><span class="p">)</span>
+
+    <span class="c1"># decompress the compressed model if it&#39;s not decompressed</span>
+    <span class="k">def</span> <span class="nf">decompress_model</span><span class="p">(</span><span class="n">compressed_model_path</span><span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">compressed_model_path</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s1">&#39;.tar.gz&#39;</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Only .tar.gz files are supported&#39;</span><span class="p">)</span>
+
+        <span class="n">decompressed_model_path</span> <span class="o">=</span> <span class="n">compressed_model_path</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.tar.gz&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">)</span> \
+                <span class="ow">and</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">isdir</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">decompressed_model_path</span>
+
+        <span class="n">ver_name</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">)</span>
+        <span class="n">unver_name</span> <span class="o">=</span> <span class="n">ver_name</span><span class="o">.</span><span class="n">rsplit</span><span class="p">(</span><span class="s1">&#39;-&#39;</span><span class="p">,</span> <span class="n">maxsplit</span><span class="o">=</span><span class="mi">1</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">target_dir_in_archive</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">ver_name</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">unver_name</span><span class="si">}</span><span class="s1">/</span><span class="si">{</span><span class="n">ver_name</span><span class="si">}</span><span class="s1">/&#39;</span>
+
+        <span class="kn">import</span> <span class="nn">tarfile</span>
+        <span class="k">with</span> <span class="n">tarfile</span><span class="o">.</span><span class="n">open</span><span class="p">(</span><span class="n">compressed_model_path</span><span class="p">,</span> <span class="s1">&#39;r:gz&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">tar</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">member</span> <span class="ow">in</span> <span class="n">tar</span><span class="o">.</span><span class="n">getmembers</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">member</span><span class="o">.</span><span class="n">name</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="n">target_dir_in_archive</span><span class="p">):</span>
+                    <span class="c1"># relative path without unnecessary directory levels</span>
+                    <span class="n">relative_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">relpath</span><span class="p">(</span>
+                        <span class="n">member</span><span class="o">.</span><span class="n">name</span><span class="p">,</span> <span class="n">start</span><span class="o">=</span><span class="n">target_dir_in_archive</span><span class="p">)</span>
+                    <span class="n">target_path</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">decompressed_model_path</span><span class="p">,</span>
+                                               <span class="n">relative_path</span><span class="p">)</span>
+
+                    <span class="k">if</span> <span class="n">member</span><span class="o">.</span><span class="n">isfile</span><span class="p">():</span>
+                        <span class="c1"># ensure the directory exists</span>
+                        <span class="n">target_directory</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">dirname</span><span class="p">(</span><span class="n">target_path</span><span class="p">)</span>
+                        <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">target_directory</span><span class="p">,</span> <span class="n">exist_ok</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                        <span class="c1"># for files, extract to the specific location</span>
+                        <span class="k">with</span> <span class="n">tar</span><span class="o">.</span><span class="n">extractfile</span><span class="p">(</span><span class="n">member</span><span class="p">)</span> <span class="k">as</span> <span class="n">source</span><span class="p">:</span>
+                            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">target_path</span><span class="p">,</span> <span class="s1">&#39;wb&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">target</span><span class="p">:</span>
+                                <span class="n">target</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">source</span><span class="o">.</span><span class="n">read</span><span class="p">())</span>
+        <span class="k">return</span> <span class="n">decompressed_model_path</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">decompress_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">compressed_model</span><span class="p">)))</span>
+    <span class="k">except</span><span class="p">:</span>  <span class="c1"># noqa: E722</span>
+        <span class="n">diversity_model</span> <span class="o">=</span> <span class="n">spacy</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">decompress_model</span><span class="p">(</span><span class="n">check_model</span><span class="p">(</span><span class="n">compressed_model</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)))</span>
+    <span class="k">return</span> <span class="n">diversity_model</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_video_blip_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_video_blip_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_video_blip_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                             <span class="o">*</span><span class="p">,</span>
+                             <span class="n">return_model</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                             <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a video-clip model with the correspoding processor.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param return_model: return model or not</span>
+<span class="sd">    :param trust_remote_code: passed to transformers</span>
+<span class="sd">    :return: a tuple (model, input processor) if `return_model` is True;</span>
+<span class="sd">        otherwise, only the processor is returned.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="s1">&#39;device&#39;</span> <span class="ow">in</span> <span class="n">model_params</span><span class="p">:</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device_map&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_params</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">)</span>
+
+    <span class="k">class</span> <span class="nc">VideoBlipVisionModel</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">Blip2VisionModel</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;A simple, augmented version of Blip2VisionModel to handle</span>
+<span class="sd">        videos.&quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">pixel_values</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">FloatTensor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span>
+                   <span class="n">transformers</span><span class="o">.</span><span class="n">modeling_outputs</span><span class="o">.</span><span class="n">BaseModelOutputWithPooling</span><span class="p">]:</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;Flatten `pixel_values` along the batch and time dimension,</span>
+<span class="sd">            pass it through the original vision model,</span>
+<span class="sd">            then unflatten it back.</span>
+
+<span class="sd">            :param pixel_values: a tensor of shape</span>
+<span class="sd">            (batch, channel, time, height, width)</span>
+
+<span class="sd">            :returns:</span>
+<span class="sd">                last_hidden_state: a tensor of shape</span>
+<span class="sd">                (batch, time * seq_len, hidden_size)</span>
+<span class="sd">                pooler_output: a tensor of shape</span>
+<span class="sd">                (batch, time, hidden_size)</span>
+<span class="sd">                hidden_states:</span>
+<span class="sd">                    a tuple of tensors of shape</span>
+<span class="sd">                    (batch, time * seq_len, hidden_size),</span>
+<span class="sd">                    one for the output of the embeddings +</span>
+<span class="sd">                    one for each layer</span>
+<span class="sd">                attentions:</span>
+<span class="sd">                    a tuple of tensors of shape</span>
+<span class="sd">                    (batch, time, num_heads, seq_len, seq_len),</span>
+<span class="sd">                    one for each layer</span>
+<span class="sd">            &quot;&quot;&quot;</span>
+            <span class="k">if</span> <span class="n">pixel_values</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;You have to specify pixel_values&#39;</span><span class="p">)</span>
+
+            <span class="n">batch</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">time</span><span class="p">,</span> <span class="n">_</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">pixel_values</span><span class="o">.</span><span class="n">size</span><span class="p">()</span>
+
+            <span class="c1"># flatten along the batch and time dimension to create a</span>
+            <span class="c1"># tensor of shape</span>
+            <span class="c1"># (batch * time, channel, height, width)</span>
+            <span class="n">flat_pixel_values</span> <span class="o">=</span> <span class="n">pixel_values</span><span class="o">.</span><span class="n">permute</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span>
+                                                     <span class="mi">4</span><span class="p">)</span><span class="o">.</span><span class="n">flatten</span><span class="p">(</span><span class="n">end_dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+
+            <span class="n">vision_outputs</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">modeling_outputs</span><span class="o">.</span><span class="n">BaseModelOutputWithPooling</span> <span class="o">=</span> <span class="nb">super</span><span class="p">(</span>  <span class="c1"># noqa: E501</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">forward</span><span class="p">(</span>
+                <span class="n">pixel_values</span><span class="o">=</span><span class="n">flat_pixel_values</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="c1"># now restore the original dimensions</span>
+            <span class="c1"># vision_outputs.last_hidden_state is of shape</span>
+            <span class="c1"># (batch * time, seq_len, hidden_size)</span>
+            <span class="n">seq_len</span> <span class="o">=</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">last_hidden_state</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">last_hidden_state</span> <span class="o">=</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">last_hidden_state</span><span class="o">.</span><span class="n">view</span><span class="p">(</span>
+                <span class="n">batch</span><span class="p">,</span> <span class="n">time</span> <span class="o">*</span> <span class="n">seq_len</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="c1"># vision_outputs.pooler_output is of shape</span>
+            <span class="c1"># (batch * time, hidden_size)</span>
+            <span class="n">pooler_output</span> <span class="o">=</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">pooler_output</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">time</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="c1"># hidden_states is a tuple of tensors of shape</span>
+            <span class="c1"># (batch * time, seq_len, hidden_size)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="p">(</span><span class="nb">tuple</span><span class="p">(</span>
+                <span class="n">hidden</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">time</span> <span class="o">*</span> <span class="n">seq_len</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">hidden</span> <span class="ow">in</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">)</span>
+                             <span class="k">if</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span>
+                             <span class="kc">None</span><span class="p">)</span>
+            <span class="c1"># attentions is a tuple of tensors of shape</span>
+            <span class="c1"># (batch * time, num_heads, seq_len, seq_len)</span>
+            <span class="n">attentions</span> <span class="o">=</span> <span class="p">(</span><span class="nb">tuple</span><span class="p">(</span>
+                <span class="n">hidden</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">time</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">hidden</span> <span class="ow">in</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+                          <span class="k">if</span> <span class="n">vision_outputs</span><span class="o">.</span><span class="n">attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">transformers</span><span class="o">.</span><span class="n">modeling_outputs</span><span class="o">.</span><span class="n">BaseModelOutputWithPooling</span><span class="p">(</span>  <span class="c1"># noqa: E501</span>
+                    <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">last_hidden_state</span><span class="p">,</span>
+                    <span class="n">pooler_output</span><span class="o">=</span><span class="n">pooler_output</span><span class="p">,</span>
+                    <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                    <span class="n">attentions</span><span class="o">=</span><span class="n">attentions</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">last_hidden_state</span><span class="p">,</span> <span class="n">pooler_output</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">,</span>
+                    <span class="n">attentions</span><span class="p">)</span>
+
+    <span class="k">class</span> <span class="nc">VideoBlipForConditionalGeneration</span><span class="p">(</span>
+            <span class="n">transformers</span><span class="o">.</span><span class="n">Blip2ForConditionalGeneration</span><span class="p">):</span>
+
+        <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">Blip2Config</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="c1"># HACK: we call the grandparent super().__init__() to bypass</span>
+            <span class="c1"># transformers.Blip2ForConditionalGeneration.__init__() so we can</span>
+            <span class="c1"># replace self.vision_model</span>
+            <span class="nb">super</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">Blip2ForConditionalGeneration</span><span class="p">,</span>
+                  <span class="bp">self</span><span class="p">)</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">vision_model</span> <span class="o">=</span> <span class="n">VideoBlipVisionModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">vision_config</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">query_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span>
+                <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">num_query_tokens</span><span class="p">,</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">qformer_config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">))</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">qformer</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">Blip2QFormerModel</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">qformer_config</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">language_projection</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">qformer_config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">use_decoder_only_language_model</span><span class="p">:</span>
+                <span class="n">language_model</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_config</span><span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">language_model</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoModelForSeq2SeqLM</span><span class="o">.</span><span class="n">from_config</span><span class="p">(</span>  <span class="c1"># noqa: E501</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">text_config</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">language_model</span> <span class="o">=</span> <span class="n">language_model</span>
+
+            <span class="c1"># Initialize weights and apply final processing</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">post_init</span><span class="p">()</span>
+
+    <span class="n">processor</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoProcessor</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">return_model</span><span class="p">:</span>
+        <span class="n">model_class</span> <span class="o">=</span> <span class="n">VideoBlipForConditionalGeneration</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_class</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                                            <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">processor</span><span class="p">)</span> <span class="k">if</span> <span class="n">return_model</span> <span class="k">else</span> <span class="n">processor</span></div>
+
+
+
+<div class="viewcode-block" id="prepare_vllm_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_vllm_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_vllm_model</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Prepare and load a HuggingFace model with the correspoding processor.</span>
+
+<span class="sd">    :param pretrained_model_name_or_path: model name or path</span>
+<span class="sd">    :param model_params: LLM initialization parameters.</span>
+<span class="sd">    :return: a tuple of (model, tokenizer)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="p">[</span><span class="s1">&#39;VLLM_WORKER_MULTIPROC_METHOD&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;spawn&#39;</span>
+
+    <span class="k">if</span> <span class="n">model_params</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;device&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;cuda:&#39;</span><span class="p">):</span>
+        <span class="n">model_params</span><span class="p">[</span><span class="s1">&#39;device&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;cuda&#39;</span>
+
+    <span class="n">model</span> <span class="o">=</span> <span class="n">vllm</span><span class="o">.</span><span class="n">LLM</span><span class="p">(</span><span class="n">model</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">model_params</span><span class="p">)</span>
+    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">get_tokenizer</span><span class="p">()</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span></div>
+
+
+
+<span class="n">MODEL_FUNCTION_MAPPING</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;api&#39;</span><span class="p">:</span> <span class="n">prepare_api_model</span><span class="p">,</span>
+    <span class="s1">&#39;diffusion&#39;</span><span class="p">:</span> <span class="n">prepare_diffusion_model</span><span class="p">,</span>
+    <span class="s1">&#39;fasttext&#39;</span><span class="p">:</span> <span class="n">prepare_fasttext_model</span><span class="p">,</span>
+    <span class="s1">&#39;huggingface&#39;</span><span class="p">:</span> <span class="n">prepare_huggingface_model</span><span class="p">,</span>
+    <span class="s1">&#39;kenlm&#39;</span><span class="p">:</span> <span class="n">prepare_kenlm_model</span><span class="p">,</span>
+    <span class="s1">&#39;nltk&#39;</span><span class="p">:</span> <span class="n">prepare_nltk_model</span><span class="p">,</span>
+    <span class="s1">&#39;opencv_classifier&#39;</span><span class="p">:</span> <span class="n">prepare_opencv_classifier</span><span class="p">,</span>
+    <span class="s1">&#39;recognizeAnything&#39;</span><span class="p">:</span> <span class="n">prepare_recognizeAnything_model</span><span class="p">,</span>
+    <span class="s1">&#39;sentencepiece&#39;</span><span class="p">:</span> <span class="n">prepare_sentencepiece_for_lang</span><span class="p">,</span>
+    <span class="s1">&#39;simple_aesthetics&#39;</span><span class="p">:</span> <span class="n">prepare_simple_aesthetics_model</span><span class="p">,</span>
+    <span class="s1">&#39;spacy&#39;</span><span class="p">:</span> <span class="n">prepare_spacy_model</span><span class="p">,</span>
+    <span class="s1">&#39;video_blip&#39;</span><span class="p">:</span> <span class="n">prepare_video_blip_model</span><span class="p">,</span>
+    <span class="s1">&#39;vllm&#39;</span><span class="p">:</span> <span class="n">prepare_vllm_model</span><span class="p">,</span>
+<span class="p">}</span>
+
+<span class="n">_MODELS_WITHOUT_FILE_LOCK</span> <span class="o">=</span> <span class="p">{</span>
+    <span class="s1">&#39;kenlm&#39;</span><span class="p">,</span> <span class="s1">&#39;nltk&#39;</span><span class="p">,</span> <span class="s1">&#39;recognizeAnything&#39;</span><span class="p">,</span> <span class="s1">&#39;sentencepiece&#39;</span><span class="p">,</span> <span class="s1">&#39;spacy&#39;</span>
+<span class="p">}</span>
+
+
+<div class="viewcode-block" id="prepare_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model">[docs]</a>
+<span class="k">def</span> <span class="nf">prepare_model</span><span class="p">(</span><span class="n">model_type</span><span class="p">,</span> <span class="o">**</span><span class="n">model_kwargs</span><span class="p">):</span>
+    <span class="k">assert</span> <span class="p">(</span><span class="n">model_type</span> <span class="ow">in</span> <span class="n">MODEL_FUNCTION_MAPPING</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+            <span class="p">),</span> <span class="s1">&#39;model_type must be one of the following: </span><span class="si">{}</span><span class="s1">&#39;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="nb">list</span><span class="p">(</span><span class="n">MODEL_FUNCTION_MAPPING</span><span class="o">.</span><span class="n">keys</span><span class="p">()))</span>
+    <span class="n">model_func</span> <span class="o">=</span> <span class="n">MODEL_FUNCTION_MAPPING</span><span class="p">[</span><span class="n">model_type</span><span class="p">]</span>
+    <span class="n">model_key</span> <span class="o">=</span> <span class="n">partial</span><span class="p">(</span><span class="n">model_func</span><span class="p">,</span> <span class="o">**</span><span class="n">model_kwargs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">model_type</span> <span class="ow">in</span> <span class="n">_MODELS_WITHOUT_FILE_LOCK</span><span class="p">:</span>
+        <span class="c1"># initialize once in the main process to safely download model files</span>
+        <span class="n">model_key</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">model_key</span></div>
+
+
+
+<div class="viewcode-block" id="get_model">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.get_model">[docs]</a>
+<span class="k">def</span> <span class="nf">get_model</span><span class="p">(</span><span class="n">model_key</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rank</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">use_cuda</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">return</span> <span class="kc">None</span>
+
+    <span class="k">global</span> <span class="n">MODEL_ZOO</span>
+    <span class="k">if</span> <span class="n">model_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">MODEL_ZOO</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">model_key</span><span class="si">}</span><span class="s1"> not found in MODEL_ZOO (</span><span class="si">{</span><span class="n">mp</span><span class="o">.</span><span class="n">current_process</span><span class="p">()</span><span class="o">.</span><span class="n">name</span><span class="si">}</span><span class="s1">)&#39;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">use_cuda</span><span class="p">:</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span> <span class="k">if</span> <span class="n">rank</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mi">0</span>
+            <span class="n">rank</span> <span class="o">=</span> <span class="n">rank</span> <span class="o">%</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="n">device</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;cuda:</span><span class="si">{</span><span class="n">rank</span><span class="si">}</span><span class="s1">&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">device</span> <span class="o">=</span> <span class="s1">&#39;cpu&#39;</span>
+        <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_key</span><span class="p">(</span><span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span></div>
+
+
+
+<div class="viewcode-block" id="free_models">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.model_utils.free_models">[docs]</a>
+<span class="k">def</span> <span class="nf">free_models</span><span class="p">():</span>
+    <span class="k">global</span> <span class="n">MODEL_ZOO</span>
+    <span class="k">for</span> <span class="n">model_key</span> <span class="ow">in</span> <span class="n">MODEL_ZOO</span><span class="p">:</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">MODEL_ZOO</span><span class="p">[</span><span class="n">model_key</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span><span class="p">:</span>
+            <span class="k">pass</span>
+    <span class="n">MODEL_ZOO</span><span class="o">.</span><span class="n">clear</span><span class="p">()</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/process_utils.html b/_modules/data_juicer/utils/process_utils.html
new file mode 100644
index 000000000..b4d67a90a
--- /dev/null
+++ b/_modules/data_juicer/utils/process_utils.html
@@ -0,0 +1,237 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.process_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.process_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.process_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">math</span>
+<span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">subprocess</span>
+
+<span class="kn">import</span> <span class="nn">multiprocess</span> <span class="k">as</span> <span class="nn">mp</span>
+<span class="kn">import</span> <span class="nn">psutil</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer</span> <span class="kn">import</span> <span class="n">cuda_device_count</span>
+
+
+<div class="viewcode-block" id="setup_mp">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.process_utils.setup_mp">[docs]</a>
+<span class="k">def</span> <span class="nf">setup_mp</span><span class="p">(</span><span class="n">method</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+    <span class="k">if</span> <span class="n">mp</span><span class="o">.</span><span class="n">current_process</span><span class="p">()</span><span class="o">.</span><span class="n">name</span> <span class="o">!=</span> <span class="s1">&#39;MainProcess&#39;</span><span class="p">:</span>
+        <span class="k">return</span>
+
+    <span class="k">if</span> <span class="n">method</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;fork&#39;</span><span class="p">,</span> <span class="s1">&#39;forkserver&#39;</span><span class="p">,</span> <span class="s1">&#39;spawn&#39;</span><span class="p">]</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">method</span><span class="p">,</span> <span class="p">(</span><span class="nb">list</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)):</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="n">method</span><span class="p">]</span>
+    <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="n">m</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">method</span><span class="p">]</span>
+
+    <span class="n">env_method</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;MP_START_METHOD&#39;</span><span class="p">,</span> <span class="s1">&#39;&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">env_method</span> <span class="ow">in</span> <span class="n">method</span><span class="p">:</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="p">[</span><span class="n">env_method</span><span class="p">]</span>
+
+    <span class="n">available_methods</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">get_all_start_methods</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">method</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">available_methods</span><span class="p">:</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Setting multiprocess start method to &#39;</span><span class="si">{</span><span class="n">m</span><span class="si">}</span><span class="s2">&#39;&quot;</span><span class="p">)</span>
+                <span class="n">mp</span><span class="o">.</span><span class="n">set_start_method</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="k">except</span> <span class="ne">RuntimeError</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Error setting multiprocess start method: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">break</span></div>
+
+
+
+<div class="viewcode-block" id="get_min_cuda_memory">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.process_utils.get_min_cuda_memory">[docs]</a>
+<span class="k">def</span> <span class="nf">get_min_cuda_memory</span><span class="p">():</span>
+    <span class="c1"># get cuda memory info using &quot;nvidia-smi&quot; command</span>
+    <span class="kn">import</span> <span class="nn">torch</span>
+    <span class="n">min_cuda_memory</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">get_device_properties</span><span class="p">(</span>
+        <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">total_memory</span> <span class="o">/</span> <span class="mi">1024</span><span class="o">**</span><span class="mi">2</span>
+    <span class="n">nvidia_smi_output</span> <span class="o">=</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">check_output</span><span class="p">([</span>
+        <span class="s1">&#39;nvidia-smi&#39;</span><span class="p">,</span> <span class="s1">&#39;--query-gpu=memory.free&#39;</span><span class="p">,</span>
+        <span class="s1">&#39;--format=csv,noheader,nounits&#39;</span>
+    <span class="p">])</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">nvidia_smi_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">):</span>
+        <span class="n">free_memory</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">line</span><span class="p">)</span>
+        <span class="n">min_cuda_memory</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">min_cuda_memory</span><span class="p">,</span> <span class="n">free_memory</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">min_cuda_memory</span></div>
+
+
+
+<div class="viewcode-block" id="calculate_np">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.process_utils.calculate_np">[docs]</a>
+<span class="k">def</span> <span class="nf">calculate_np</span><span class="p">(</span><span class="n">name</span><span class="p">,</span>
+                 <span class="n">mem_required</span><span class="p">,</span>
+                 <span class="n">cpu_required</span><span class="p">,</span>
+                 <span class="n">num_proc</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                 <span class="n">use_cuda</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Calculate the optimum number of processes for the given OP&quot;&quot;&quot;</span>
+    <span class="n">eps</span> <span class="o">=</span> <span class="mf">1e-9</span>  <span class="c1"># about 1 byte</span>
+
+    <span class="k">if</span> <span class="n">use_cuda</span><span class="p">:</span>
+        <span class="n">auto_num_proc</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">cuda_mem_available</span> <span class="o">=</span> <span class="n">get_min_cuda_memory</span><span class="p">()</span> <span class="o">/</span> <span class="mi">1024</span>
+        <span class="k">if</span> <span class="n">mem_required</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The required cuda memory of Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;has not been specified. &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;Please specify the mem_required field in the &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;config file, or you might encounter CUDA &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;out of memory error. You can reference &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;the mem_required field in the &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;config_all.yaml file.&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">auto_num_proc</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span>
+                <span class="n">cuda_mem_available</span> <span class="o">/</span> <span class="n">mem_required</span><span class="p">)</span> <span class="o">*</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="k">if</span> <span class="n">cuda_mem_available</span> <span class="o">/</span> <span class="n">mem_required</span> <span class="o">&lt;</span> <span class="mf">1.0</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;The required cuda memory:</span><span class="si">{</span><span class="n">mem_required</span><span class="si">}</span><span class="s1">GB might &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;be more than the available cuda memory:&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">cuda_mem_available</span><span class="si">}</span><span class="s1">GB.&#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;This Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] might &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;require more resource to run.&#39;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">auto_num_proc</span> <span class="ow">and</span> <span class="n">num_proc</span><span class="p">:</span>
+            <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">auto_num_proc</span><span class="p">,</span> <span class="n">num_proc</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">num_proc</span> <span class="o">&gt;</span> <span class="n">auto_num_proc</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s1">&#39;The given num_proc: </span><span class="si">{</span><span class="n">num_proc</span><span class="si">}</span><span class="s1"> is greater than &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;the value </span><span class="si">{</span><span class="n">auto_num_proc</span><span class="si">}</span><span class="s1"> auto calculated based &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;on the mem_required of Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">]. &#39;</span>
+                    <span class="sa">f</span><span class="s1">&#39;Set the `num_proc` to </span><span class="si">{</span><span class="n">auto_num_proc</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="n">auto_num_proc</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">num_proc</span><span class="p">:</span>
+            <span class="n">op_proc</span> <span class="o">=</span> <span class="n">cuda_device_count</span><span class="p">()</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;Both mem_required and num_proc of Op[</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] are not set.&#39;</span>
+                <span class="sa">f</span><span class="s1">&#39;Set the `num_proc` to number of GPUs </span><span class="si">{</span><span class="n">op_proc</span><span class="si">}</span><span class="s1">.&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">op_proc</span> <span class="o">=</span> <span class="n">auto_num_proc</span> <span class="k">if</span> <span class="n">auto_num_proc</span> <span class="k">else</span> <span class="n">num_proc</span>
+
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">op_proc</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">num_proc</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_proc</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span>
+
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="n">num_proc</span>
+        <span class="n">cpu_available</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span>
+        <span class="n">mem_available</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">virtual_memory</span><span class="p">()</span><span class="o">.</span><span class="n">available</span>
+        <span class="n">mem_available</span> <span class="o">=</span> <span class="n">mem_available</span> <span class="o">/</span> <span class="mi">1024</span><span class="o">**</span><span class="mi">3</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">cpu_available</span> <span class="o">/</span> <span class="n">cpu_required</span> <span class="o">+</span> <span class="n">eps</span><span class="p">))</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span>
+                      <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">mem_available</span> <span class="o">/</span> <span class="p">(</span><span class="n">mem_required</span> <span class="o">+</span> <span class="n">eps</span><span class="p">)))</span>
+        <span class="k">if</span> <span class="n">op_proc</span> <span class="o">&lt;</span> <span class="mf">1.0</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;The required CPU number:</span><span class="si">{</span><span class="n">cpu_required</span><span class="si">}</span><span class="s1"> &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;and memory:</span><span class="si">{</span><span class="n">mem_required</span><span class="si">}</span><span class="s1">GB might &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;be more than the available CPU:</span><span class="si">{</span><span class="n">cpu_available</span><span class="si">}</span><span class="s1"> &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;and memory :</span><span class="si">{</span><span class="n">mem_available</span><span class="si">}</span><span class="s1">GB.&#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;This Op [</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s1">] might &#39;</span>
+                           <span class="sa">f</span><span class="s1">&#39;require more resource to run.&#39;</span><span class="p">)</span>
+        <span class="n">op_proc</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">op_proc</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">op_proc</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/registry.html b/_modules/data_juicer/utils/registry.html
new file mode 100644
index 000000000..686c7f2a2
--- /dev/null
+++ b/_modules/data_juicer/utils/registry.html
@@ -0,0 +1,258 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.registry &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.registry</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.registry</h1><div class="highlight"><pre>
+<span></span><span class="c1"># Copyright (c) Alibaba, Inc. and its affiliates.</span>
+<span class="c1">#</span>
+<span class="c1"># Licensed under the Apache License, Version 2.0 (the &quot;License&quot;);</span>
+<span class="c1"># you may not use this file except in compliance with the License.</span>
+<span class="c1"># You may obtain a copy of the License at</span>
+<span class="c1">#</span>
+<span class="c1">#     http://www.apache.org/licenses/LICENSE-2.0</span>
+<span class="c1">#</span>
+<span class="c1"># Unless required by applicable law or agreed to in writing, software</span>
+<span class="c1"># distributed under the License is distributed on an &quot;AS IS&quot; BASIS,</span>
+<span class="c1"># WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.</span>
+<span class="c1"># See the License for the specific language governing permissions and</span>
+<span class="c1"># limitations under the License.</span>
+
+<span class="c1"># --------------------------------------------------------</span>
+<span class="c1"># Most of the code here has been modified from:</span>
+<span class="c1">#  https://github.com/modelscope/modelscope/blob/master/modelscope/utils/registry.py</span>
+<span class="c1"># --------------------------------------------------------</span>
+
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+
+<div class="viewcode-block" id="Registry">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry">[docs]</a>
+<span class="k">class</span> <span class="nc">Registry</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This class is used to register some modules to registry by a repo</span>
+<span class="sd">    name.&quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="Registry.__init__">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__">[docs]</a>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Initialization method.</span>
+
+<span class="sd">        :param name: a registry repo name</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="o">=</span> <span class="p">{}</span></div>
+
+
+    <span class="nd">@property</span>
+    <span class="k">def</span> <span class="nf">name</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get name of current registry.</span>
+
+<span class="sd">        :return: name of current registry.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_name</span>
+
+    <span class="nd">@property</span>
+    <span class="k">def</span> <span class="nf">modules</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get all modules in current registry.</span>
+
+<span class="sd">        :return: a dict storing modules in current registry.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span>
+
+<div class="viewcode-block" id="Registry.list">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.list">[docs]</a>
+    <span class="k">def</span> <span class="nf">list</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Logging the list of module in current registry.&quot;&quot;&quot;</span>
+        <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="se">\t</span><span class="si">{</span><span class="n">m</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="Registry.get">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.get">[docs]</a>
+    <span class="k">def</span> <span class="nf">get</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module_key</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Get module named module_key from in current registry. If not found,</span>
+<span class="sd">        return None.</span>
+
+<span class="sd">        :param module_key: specified module name</span>
+<span class="sd">        :return: module named module_key</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">module_key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span></div>
+
+
+    <span class="k">def</span> <span class="nf">_register_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">module_name</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_cls</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Register module to registry.</span>
+
+<span class="sd">        :param module_name: module name</span>
+<span class="sd">        :param module_cls: module class object</span>
+<span class="sd">        :param force: Whether to override an existing class with the</span>
+<span class="sd">            same name. Default: False.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">module_name</span> <span class="o">=</span> <span class="n">module_cls</span><span class="o">.</span><span class="vm">__name__</span>
+
+        <span class="k">if</span> <span class="n">module_name</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">force</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">module_name</span><span class="si">}</span><span class="s1"> is already registered in </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_modules</span><span class="p">[</span><span class="n">module_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">module_cls</span>
+        <span class="n">module_cls</span><span class="o">.</span><span class="n">_name</span> <span class="o">=</span> <span class="n">module_name</span>
+
+<div class="viewcode-block" id="Registry.register_module">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module">[docs]</a>
+    <span class="k">def</span> <span class="nf">register_module</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                        <span class="n">module_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                        <span class="n">module_cls</span><span class="p">:</span> <span class="nb">type</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+                        <span class="n">force</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Register module class object to registry with the specified modulename.</span>
+
+<span class="sd">        :param module_name: module name</span>
+<span class="sd">        :param module_cls: module class object</span>
+<span class="sd">        :param force: Whether to override an existing class with</span>
+<span class="sd">                the same name. Default: False.</span>
+
+<span class="sd">        Example:</span>
+<span class="sd">            &gt;&gt;&gt; registry = Registry()</span>
+<span class="sd">            &gt;&gt;&gt; @registry.register_module()</span>
+<span class="sd">            &gt;&gt;&gt; class TextFormatter:</span>
+<span class="sd">            &gt;&gt;&gt;     pass</span>
+
+<span class="sd">            &gt;&gt;&gt; class TextFormatter2:</span>
+<span class="sd">            &gt;&gt;&gt;     pass</span>
+<span class="sd">            &gt;&gt;&gt; registry.register_module( module_name=&#39;text_formatter2&#39;,</span>
+<span class="sd">                                        module_cls=TextFormatter2)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span><span class="n">module_name</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">module_name</span><span class="p">,</span> <span class="nb">str</span><span class="p">)):</span>
+            <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;module_name must be either of None, str,&#39;</span>
+                            <span class="sa">f</span><span class="s1">&#39;got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">module_name</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">module_cls</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_register_module</span><span class="p">(</span><span class="n">module_name</span><span class="o">=</span><span class="n">module_name</span><span class="p">,</span>
+                                  <span class="n">module_cls</span><span class="o">=</span><span class="n">module_cls</span><span class="p">,</span>
+                                  <span class="n">force</span><span class="o">=</span><span class="n">force</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">module_cls</span>
+
+        <span class="c1"># if module_cls is None, should return a decorator function</span>
+        <span class="k">def</span> <span class="nf">_register</span><span class="p">(</span><span class="n">module_cls</span><span class="p">):</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            Register module class object to registry.</span>
+
+<span class="sd">            :param module_cls: module class object</span>
+<span class="sd">            :return: module class object.</span>
+<span class="sd">            &quot;&quot;&quot;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_register_module</span><span class="p">(</span><span class="n">module_name</span><span class="o">=</span><span class="n">module_name</span><span class="p">,</span>
+                                  <span class="n">module_cls</span><span class="o">=</span><span class="n">module_cls</span><span class="p">,</span>
+                                  <span class="n">force</span><span class="o">=</span><span class="n">force</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">module_cls</span>
+
+        <span class="k">return</span> <span class="n">_register</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/resource_utils.html b/_modules/data_juicer/utils/resource_utils.html
new file mode 100644
index 000000000..825a8d4e7
--- /dev/null
+++ b/_modules/data_juicer/utils/resource_utils.html
@@ -0,0 +1,173 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.resource_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.resource_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.resource_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">subprocess</span>
+
+<span class="kn">import</span> <span class="nn">psutil</span>
+<span class="kn">from</span> <span class="nn">loguru</span> <span class="kn">import</span> <span class="n">logger</span>
+
+<span class="n">NVSMI_REPORT</span> <span class="o">=</span> <span class="kc">True</span>
+
+
+<div class="viewcode-block" id="query_cuda_info">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.query_cuda_info">[docs]</a>
+<span class="k">def</span> <span class="nf">query_cuda_info</span><span class="p">(</span><span class="n">query_key</span><span class="p">):</span>
+    <span class="k">global</span> <span class="n">NVSMI_REPORT</span>
+    <span class="c1"># get cuda info using &quot;nvidia-smi&quot; command in MB</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">nvidia_smi_output</span> <span class="o">=</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">check_output</span><span class="p">([</span>
+            <span class="s1">&#39;nvidia-smi&#39;</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;--query-gpu=</span><span class="si">{</span><span class="n">query_key</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">,</span>
+            <span class="s1">&#39;--format=csv,noheader,nounits&#39;</span>
+        <span class="p">])</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+    <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+        <span class="k">if</span> <span class="s1">&#39;non-zero exit status 2&#39;</span> <span class="ow">in</span> <span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">):</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="sa">f</span><span class="s1">&#39;The specified query_key [</span><span class="si">{</span><span class="n">query_key</span><span class="si">}</span><span class="s1">] might not be &#39;</span> \
+                      <span class="sa">f</span><span class="s1">&#39;supported by command nvidia-smi. Please check and &#39;</span> \
+                      <span class="sa">f</span><span class="s1">&#39;retry!&#39;</span>
+        <span class="k">elif</span> <span class="s1">&#39;No such file or directory&#39;</span> <span class="ow">in</span> <span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">):</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="s1">&#39;Command nvidia-smi is not found. There might be no &#39;</span> \
+                      <span class="s1">&#39;GPUs on this machine.&#39;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">err_msg</span> <span class="o">=</span> <span class="nb">str</span><span class="p">(</span><span class="n">e</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">NVSMI_REPORT</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="n">err_msg</span><span class="p">)</span>
+            <span class="n">NVSMI_REPORT</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">return</span> <span class="kc">None</span>
+    <span class="n">cuda_info_list</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">for</span> <span class="n">line</span> <span class="ow">in</span> <span class="n">nvidia_smi_output</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;</span><span class="se">\n</span><span class="s1">&#39;</span><span class="p">):</span>
+        <span class="n">cuda_info_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">line</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">cuda_info_list</span></div>
+
+
+
+<div class="viewcode-block" id="get_cpu_count">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_count">[docs]</a>
+<span class="k">def</span> <span class="nf">get_cpu_count</span><span class="p">():</span>
+    <span class="k">return</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_count</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="get_cpu_utilization">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_utilization">[docs]</a>
+<span class="k">def</span> <span class="nf">get_cpu_utilization</span><span class="p">():</span>
+    <span class="k">return</span> <span class="n">psutil</span><span class="o">.</span><span class="n">cpu_percent</span><span class="p">()</span></div>
+
+
+
+<div class="viewcode-block" id="query_mem_info">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.resource_utils.query_mem_info">[docs]</a>
+<span class="k">def</span> <span class="nf">query_mem_info</span><span class="p">(</span><span class="n">query_key</span><span class="p">):</span>
+    <span class="n">mem</span> <span class="o">=</span> <span class="n">psutil</span><span class="o">.</span><span class="n">virtual_memory</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">query_key</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">mem</span><span class="o">.</span><span class="n">_fields</span><span class="p">:</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;No such query key [</span><span class="si">{</span><span class="n">query_key</span><span class="si">}</span><span class="s1">] for memory info. &#39;</span>
+                       <span class="sa">f</span><span class="s1">&#39;Should be one of </span><span class="si">{</span><span class="n">mem</span><span class="o">.</span><span class="n">_fields</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="kc">None</span>
+    <span class="n">val</span> <span class="o">=</span> <span class="nb">round</span><span class="p">(</span><span class="n">mem</span><span class="o">.</span><span class="fm">__getattribute__</span><span class="p">(</span><span class="n">query_key</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="mi">2</span><span class="o">**</span><span class="mi">20</span><span class="p">),</span> <span class="mi">2</span><span class="p">)</span>  <span class="c1"># in MB</span>
+    <span class="k">return</span> <span class="n">val</span></div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/data_juicer/utils/unittest_utils.html b/_modules/data_juicer/utils/unittest_utils.html
new file mode 100644
index 000000000..7b71696df
--- /dev/null
+++ b/_modules/data_juicer/utils/unittest_utils.html
@@ -0,0 +1,263 @@
+
+
+<!DOCTYPE html>
+<html class="writer-html5" lang="en" data-content_root="../../../">
+<head>
+  <meta charset="utf-8" />
+  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
+  <title>data_juicer.utils.unittest_utils &mdash; data_juicer 1.0.2 documentation</title>
+      <link rel="stylesheet" type="text/css" href="../../../_static/pygments.css?v=80d5e7a1" />
+      <link rel="stylesheet" type="text/css" href="../../../_static/css/theme.css?v=e59714d7" />
+
+  
+      <script src="../../../_static/documentation_options.js?v=1ed6394b"></script>
+      <script src="../../../_static/doctools.js?v=9a2dae69"></script>
+      <script src="../../../_static/sphinx_highlight.js?v=dc90522c"></script>
+    <script src="../../../_static/js/theme.js"></script>
+    <link rel="index" title="Index" href="../../../genindex.html" />
+    <link rel="search" title="Search" href="../../../search.html" /> 
+</head>
+
+<body class="wy-body-for-nav"> 
+  <div class="wy-grid-for-nav">
+    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
+      <div class="wy-side-scroll">
+        <div class="wy-side-nav-search" >
+
+          
+          
+          <a href="../../../index.html" class="icon icon-home">
+            data_juicer
+          </a>
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+        </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
+              <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="../../../index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="../../../index.html" class="icon icon-home" aria-label="Home"></a></li>
+          <li class="breadcrumb-item"><a href="../../index.html">Module code</a></li>
+          <li class="breadcrumb-item"><a href="../../data_juicer.html">data_juicer</a></li>
+      <li class="breadcrumb-item active">data_juicer.utils.unittest_utils</li>
+      <li class="wy-breadcrumbs-aside">
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <h1>Source code for data_juicer.utils.unittest_utils</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">shutil</span>
+<span class="kn">import</span> <span class="nn">unittest</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span>
+
+<span class="kn">from</span> <span class="nn">data_juicer</span> <span class="kn">import</span> <span class="n">is_cuda_available</span>
+<span class="kn">from</span> <span class="nn">data_juicer.core.data</span> <span class="kn">import</span> <span class="n">DJDataset</span><span class="p">,</span> <span class="n">NestedDataset</span>
+<span class="kn">from</span> <span class="nn">data_juicer.core.ray_data</span> <span class="kn">import</span> <span class="n">RayDataset</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.lazy_loader</span> <span class="kn">import</span> <span class="n">LazyLoader</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.model_utils</span> <span class="kn">import</span> <span class="n">free_models</span>
+<span class="kn">from</span> <span class="nn">data_juicer.utils.registry</span> <span class="kn">import</span> <span class="n">Registry</span>
+
+<span class="n">rd</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;rd&#39;</span><span class="p">,</span> <span class="s1">&#39;ray.data&#39;</span><span class="p">)</span>
+<span class="n">transformers</span> <span class="o">=</span> <span class="n">LazyLoader</span><span class="p">(</span><span class="s1">&#39;transformers&#39;</span><span class="p">,</span> <span class="s1">&#39;transformers&#39;</span><span class="p">)</span>
+
+<span class="n">SKIPPED_TESTS</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">(</span><span class="s1">&#39;SkippedTests&#39;</span><span class="p">)</span>
+
+<span class="n">CLEAR_MODEL</span> <span class="o">=</span> <span class="kc">False</span>
+
+
+<div class="viewcode-block" id="TEST_TAG">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.TEST_TAG">[docs]</a>
+<span class="k">def</span> <span class="nf">TEST_TAG</span><span class="p">(</span><span class="o">*</span><span class="n">tags</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Tags for test case.</span>
+<span class="sd">    Currently, `standalone`, `ray` are supported.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">decorator</span><span class="p">(</span><span class="n">func</span><span class="p">):</span>
+        <span class="nb">setattr</span><span class="p">(</span><span class="n">func</span><span class="p">,</span> <span class="s1">&#39;__test_tags__&#39;</span><span class="p">,</span> <span class="n">tags</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">func</span>
+
+    <span class="k">return</span> <span class="n">decorator</span></div>
+
+
+
+<div class="viewcode-block" id="set_clear_model_flag">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.set_clear_model_flag">[docs]</a>
+<span class="k">def</span> <span class="nf">set_clear_model_flag</span><span class="p">(</span><span class="n">flag</span><span class="p">):</span>
+    <span class="k">global</span> <span class="n">CLEAR_MODEL</span>
+    <span class="n">CLEAR_MODEL</span> <span class="o">=</span> <span class="n">flag</span>
+    <span class="k">if</span> <span class="n">CLEAR_MODEL</span><span class="p">:</span>
+        <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;CLEAR DOWNLOADED MODELS AFTER UNITTESTS.&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;KEEP DOWNLOADED MODELS AFTER UNITTESTS.&#39;</span><span class="p">)</span></div>
+
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase">[docs]</a>
+<span class="k">class</span> <span class="nc">DataJuicerTestCaseBase</span><span class="p">(</span><span class="n">unittest</span><span class="o">.</span><span class="n">TestCase</span><span class="p">):</span>
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.setUpClass">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">setUpClass</span><span class="p">(</span><span class="bp">cls</span><span class="p">):</span>
+        <span class="c1"># Set maxDiff for all test cases based on an environment variable</span>
+        <span class="n">max_diff</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">getenv</span><span class="p">(</span><span class="s1">&#39;TEST_MAX_DIFF&#39;</span><span class="p">,</span> <span class="s1">&#39;None&#39;</span><span class="p">)</span>
+        <span class="bp">cls</span><span class="o">.</span><span class="n">maxDiff</span> <span class="o">=</span> <span class="kc">None</span> <span class="k">if</span> <span class="n">max_diff</span> <span class="o">==</span> <span class="s1">&#39;None&#39;</span> <span class="k">else</span> <span class="nb">int</span><span class="p">(</span><span class="n">max_diff</span><span class="p">)</span>
+
+        <span class="kn">import</span> <span class="nn">multiprocess</span>
+        <span class="bp">cls</span><span class="o">.</span><span class="n">original_mp_method</span> <span class="o">=</span> <span class="n">multiprocess</span><span class="o">.</span><span class="n">get_start_method</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">is_cuda_available</span><span class="p">():</span>
+            <span class="n">multiprocess</span><span class="o">.</span><span class="n">set_start_method</span><span class="p">(</span><span class="s1">&#39;spawn&#39;</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.tearDownClass">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">tearDownClass</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">hf_model_name</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="kn">import</span> <span class="nn">multiprocess</span>
+        <span class="n">multiprocess</span><span class="o">.</span><span class="n">set_start_method</span><span class="p">(</span><span class="bp">cls</span><span class="o">.</span><span class="n">original_mp_method</span><span class="p">,</span> <span class="n">force</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="c1"># clean the huggingface model cache files</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">CLEAR_MODEL</span><span class="p">:</span>
+            <span class="k">pass</span>
+        <span class="k">elif</span> <span class="n">hf_model_name</span><span class="p">:</span>
+            <span class="c1"># given the hf model name, remove this model only</span>
+            <span class="n">model_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                <span class="n">transformers</span><span class="o">.</span><span class="n">TRANSFORMERS_CACHE</span><span class="p">,</span>
+                <span class="sa">f</span><span class="s1">&#39;models--</span><span class="si">{</span><span class="n">hf_model_name</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">,</span><span class="w"> </span><span class="s2">&quot;--&quot;</span><span class="p">)</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">model_dir</span><span class="p">):</span>
+                <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;CLEAN model cache files for </span><span class="si">{</span><span class="n">hf_model_name</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">model_dir</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># not given the hf model name, remove the whole TRANSFORMERS_CACHE</span>
+            <span class="k">if</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">TRANSFORMERS_CACHE</span><span class="p">):</span>
+                <span class="nb">print</span><span class="p">(</span><span class="s1">&#39;CLEAN all TRANSFORMERS_CACHE&#39;</span><span class="p">)</span>
+                <span class="n">shutil</span><span class="o">.</span><span class="n">rmtree</span><span class="p">(</span><span class="n">transformers</span><span class="o">.</span><span class="n">TRANSFORMERS_CACHE</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.tearDown">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown">[docs]</a>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">tearDown</span><span class="p">(</span><span class="bp">cls</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">free_models</span><span class="p">()</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.generate_dataset">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset">[docs]</a>
+    <span class="k">def</span> <span class="nf">generate_dataset</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">DJDataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Generate dataset for a specific executor.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            type (str, optional): &quot;standalone&quot; or &quot;ray&quot;.</span>
+<span class="sd">            Defaults to &quot;standalone&quot;.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">current_tag</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;current_tag&#39;</span><span class="p">,</span> <span class="s1">&#39;standalone&#39;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;standalone&#39;</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">NestedDataset</span><span class="o">.</span><span class="n">from_list</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;ray&#39;</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">rd</span><span class="o">.</span><span class="n">from_items</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">RayDataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Unsupported type&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.run_single_op">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op">[docs]</a>
+    <span class="k">def</span> <span class="nf">run_single_op</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dataset</span><span class="p">:</span> <span class="n">DJDataset</span><span class="p">,</span> <span class="n">op</span><span class="p">,</span> <span class="n">column_names</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Run operator in the specific executor.&quot;&quot;&quot;</span>
+        <span class="n">current_tag</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;current_tag&#39;</span><span class="p">,</span> <span class="s1">&#39;standalone&#39;</span><span class="p">)</span>
+        <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">process</span><span class="p">(</span><span class="n">op</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;standalone&#39;</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">select_columns</span><span class="p">(</span><span class="n">column_names</span><span class="o">=</span><span class="n">column_names</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">to_list</span><span class="p">()</span>
+        <span class="k">elif</span> <span class="n">current_tag</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s1">&#39;ray&#39;</span><span class="p">):</span>
+            <span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">to_pandas</span><span class="p">()</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">column_names</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="p">[]</span>
+            <span class="k">return</span> <span class="n">dataset</span><span class="o">.</span><span class="n">to_dict</span><span class="p">(</span><span class="n">orient</span><span class="o">=</span><span class="s1">&#39;records&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s1">&#39;Unsupported type&#39;</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="DataJuicerTestCaseBase.assertDatasetEqual">
+<a class="viewcode-back" href="../../../data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual">[docs]</a>
+    <span class="k">def</span> <span class="nf">assertDatasetEqual</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">first</span><span class="p">,</span> <span class="n">second</span><span class="p">):</span>
+
+        <span class="k">def</span> <span class="nf">convert_record</span><span class="p">(</span><span class="n">rec</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">rec</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+                <span class="c1"># Convert incomparable `list` to comparable `tuple`</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="n">numpy</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                        <span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+                    <span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">rec</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">rec</span>
+
+        <span class="n">first</span> <span class="o">=</span> <span class="p">[</span><span class="n">convert_record</span><span class="p">(</span><span class="n">d</span><span class="p">)</span> <span class="k">for</span> <span class="n">d</span> <span class="ow">in</span> <span class="n">first</span><span class="p">]</span>
+        <span class="n">second</span> <span class="o">=</span> <span class="p">[</span><span class="n">convert_record</span><span class="p">(</span><span class="n">d</span><span class="p">)</span> <span class="k">for</span> <span class="n">d</span> <span class="ow">in</span> <span class="n">second</span><span class="p">]</span>
+        <span class="n">first</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">first</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">sorted</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">items</span><span class="p">())))</span>
+        <span class="n">second</span> <span class="o">=</span> <span class="nb">sorted</span><span class="p">(</span><span class="n">second</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">sorted</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">items</span><span class="p">())))</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">assertEqual</span><span class="p">(</span><span class="n">first</span><span class="p">,</span> <span class="n">second</span><span class="p">)</span></div>
+</div>
+
+</pre></div>
+
+           </div>
+          </div>
+          <footer>
+
+  <hr/>
+
+  <div role="contentinfo">
+    <p>&#169; Copyright 2024, Data-Juicer Team.</p>
+  </div>
+
+  Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
+    <a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
+    provided by <a href="https://readthedocs.org">Read the Docs</a>.
+   
+
+</footer>
+        </div>
+      </div>
+    </section>
+  </div>
+  <script>
+      jQuery(function () {
+          SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+</body>
+</html>
\ No newline at end of file
diff --git a/_modules/index.html b/_modules/index.html
index 947e42b84..3bf0fbb3b 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -11,7 +11,7 @@
 
   
       <script src="../_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="../_static/doctools.js?v=9bcbadda"></script>
+      <script src="../_static/doctools.js?v=9a2dae69"></script>
       <script src="../_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="../_static/js/theme.js"></script>
     <link rel="index" title="Index" href="../genindex.html" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -76,8 +76,11 @@
              
   <h1>All modules for which code is available</h1>
 <ul><li><a href="data_juicer.html">data_juicer</a></li>
-<ul><li><a href="data_juicer/analysis/column_wise_analysis.html">data_juicer.analysis.column_wise_analysis</a></li>
+<ul><li><a href="data_juicer/analysis/collector.html">data_juicer.analysis.collector</a></li>
+<li><a href="data_juicer/analysis/column_wise_analysis.html">data_juicer.analysis.column_wise_analysis</a></li>
 <li><a href="data_juicer/analysis/diversity_analysis.html">data_juicer.analysis.diversity_analysis</a></li>
+<li><a href="data_juicer/analysis/draw.html">data_juicer.analysis.draw</a></li>
+<li><a href="data_juicer/analysis/measure.html">data_juicer.analysis.measure</a></li>
 <li><a href="data_juicer/analysis/overall_analysis.html">data_juicer.analysis.overall_analysis</a></li>
 <li><a href="data_juicer/config/config.html">data_juicer.config.config</a></li>
 <li><a href="data_juicer/core/adapter.html">data_juicer.core.adapter</a></li>
@@ -86,6 +89,8 @@ <h1>All modules for which code is available</h1>
 <li><a href="data_juicer/core/executor.html">data_juicer.core.executor</a></li>
 <li><a href="data_juicer/core/exporter.html">data_juicer.core.exporter</a></li>
 <li><a href="data_juicer/core/monitor.html">data_juicer.core.monitor</a></li>
+<li><a href="data_juicer/core/ray_data.html">data_juicer.core.ray_data</a></li>
+<li><a href="data_juicer/core/ray_executor.html">data_juicer.core.ray_executor</a></li>
 <li><a href="data_juicer/core/tracer.html">data_juicer.core.tracer</a></li>
 <li><a href="data_juicer/format/csv_formatter.html">data_juicer.format.csv_formatter</a></li>
 <li><a href="data_juicer/format/empty_formatter.html">data_juicer.format.empty_formatter</a></li>
@@ -221,10 +226,28 @@ <h1>All modules for which code is available</h1>
 <li><a href="data_juicer/ops/mapper/video_tagging_from_audio_mapper.html">data_juicer.ops.mapper.video_tagging_from_audio_mapper</a></li>
 <li><a href="data_juicer/ops/mapper/video_tagging_from_frames_mapper.html">data_juicer.ops.mapper.video_tagging_from_frames_mapper</a></li>
 <li><a href="data_juicer/ops/mapper/whitespace_normalization_mapper.html">data_juicer.ops.mapper.whitespace_normalization_mapper</a></li>
+<li><a href="data_juicer/ops/op_fusion.html">data_juicer.ops.op_fusion</a></li>
 <li><a href="data_juicer/ops/selector/frequency_specified_field_selector.html">data_juicer.ops.selector.frequency_specified_field_selector</a></li>
 <li><a href="data_juicer/ops/selector/random_selector.html">data_juicer.ops.selector.random_selector</a></li>
 <li><a href="data_juicer/ops/selector/range_specified_field_selector.html">data_juicer.ops.selector.range_specified_field_selector</a></li>
 <li><a href="data_juicer/ops/selector/topk_specified_field_selector.html">data_juicer.ops.selector.topk_specified_field_selector</a></li>
+<li><a href="data_juicer/utils/asset_utils.html">data_juicer.utils.asset_utils</a></li>
+<li><a href="data_juicer/utils/auto_install_utils.html">data_juicer.utils.auto_install_utils</a></li>
+<li><a href="data_juicer/utils/cache_utils.html">data_juicer.utils.cache_utils</a></li>
+<li><a href="data_juicer/utils/ckpt_utils.html">data_juicer.utils.ckpt_utils</a></li>
+<li><a href="data_juicer/utils/common_utils.html">data_juicer.utils.common_utils</a></li>
+<li><a href="data_juicer/utils/compress.html">data_juicer.utils.compress</a></li>
+<li><a href="data_juicer/utils/constant.html">data_juicer.utils.constant</a></li>
+<li><a href="data_juicer/utils/file_utils.html">data_juicer.utils.file_utils</a></li>
+<li><a href="data_juicer/utils/fingerprint_utils.html">data_juicer.utils.fingerprint_utils</a></li>
+<li><a href="data_juicer/utils/lazy_loader.html">data_juicer.utils.lazy_loader</a></li>
+<li><a href="data_juicer/utils/logger_utils.html">data_juicer.utils.logger_utils</a></li>
+<li><a href="data_juicer/utils/mm_utils.html">data_juicer.utils.mm_utils</a></li>
+<li><a href="data_juicer/utils/model_utils.html">data_juicer.utils.model_utils</a></li>
+<li><a href="data_juicer/utils/process_utils.html">data_juicer.utils.process_utils</a></li>
+<li><a href="data_juicer/utils/registry.html">data_juicer.utils.registry</a></li>
+<li><a href="data_juicer/utils/resource_utils.html">data_juicer.utils.resource_utils</a></li>
+<li><a href="data_juicer/utils/unittest_utils.html">data_juicer.utils.unittest_utils</a></li>
 </ul></ul>
 
            </div>
diff --git a/_sources/data_juicer.analysis.rst.txt b/_sources/data_juicer.analysis.rst.txt
index 1fbf84b35..424c7004d 100644
--- a/_sources/data_juicer.analysis.rst.txt
+++ b/_sources/data_juicer.analysis.rst.txt
@@ -1,7 +1,61 @@
-data_juicer.analysis
-====================
+data\_juicer.analysis package
+=============================
+
+Submodules
+----------
+
+data\_juicer.analysis.collector module
+--------------------------------------
+
+.. automodule:: data_juicer.analysis.collector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.column\_wise\_analysis module
+---------------------------------------------------
+
+.. automodule:: data_juicer.analysis.column_wise_analysis
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.diversity\_analysis module
+------------------------------------------------
+
+.. automodule:: data_juicer.analysis.diversity_analysis
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.draw module
+---------------------------------
+
+.. automodule:: data_juicer.analysis.draw
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.measure module
+------------------------------------
+
+.. automodule:: data_juicer.analysis.measure
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.analysis.overall\_analysis module
+----------------------------------------------
+
+.. automodule:: data_juicer.analysis.overall_analysis
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.analysis
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.config.rst.txt b/_sources/data_juicer.config.rst.txt
index 121c836ed..9b7293596 100644
--- a/_sources/data_juicer.config.rst.txt
+++ b/_sources/data_juicer.config.rst.txt
@@ -1,7 +1,21 @@
-data_juicer.config
-==================
+data\_juicer.config package
+===========================
+
+Submodules
+----------
+
+data\_juicer.config.config module
+---------------------------------
+
+.. automodule:: data_juicer.config.config
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.config
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.core.rst.txt b/_sources/data_juicer.core.rst.txt
index 99a3c1663..4eab6eea5 100644
--- a/_sources/data_juicer.core.rst.txt
+++ b/_sources/data_juicer.core.rst.txt
@@ -1,7 +1,85 @@
-data_juicer.core
-================
+data\_juicer.core package
+=========================
+
+Submodules
+----------
+
+data\_juicer.core.adapter module
+--------------------------------
+
+.. automodule:: data_juicer.core.adapter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.analyzer module
+---------------------------------
+
+.. automodule:: data_juicer.core.analyzer
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.data module
+-----------------------------
+
+.. automodule:: data_juicer.core.data
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.executor module
+---------------------------------
+
+.. automodule:: data_juicer.core.executor
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.exporter module
+---------------------------------
+
+.. automodule:: data_juicer.core.exporter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.monitor module
+--------------------------------
+
+.. automodule:: data_juicer.core.monitor
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.ray\_data module
+----------------------------------
+
+.. automodule:: data_juicer.core.ray_data
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.ray\_executor module
+--------------------------------------
+
+.. automodule:: data_juicer.core.ray_executor
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.core.tracer module
+-------------------------------
+
+.. automodule:: data_juicer.core.tracer
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.core
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.format.rst.txt b/_sources/data_juicer.format.rst.txt
index 3f33b3ae9..8e2791823 100644
--- a/_sources/data_juicer.format.rst.txt
+++ b/_sources/data_juicer.format.rst.txt
@@ -1,7 +1,85 @@
-data_juicer.format
-==================
+data\_juicer.format package
+===========================
+
+Submodules
+----------
+
+data\_juicer.format.csv\_formatter module
+-----------------------------------------
+
+.. automodule:: data_juicer.format.csv_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.empty\_formatter module
+-------------------------------------------
+
+.. automodule:: data_juicer.format.empty_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.formatter module
+------------------------------------
+
+.. automodule:: data_juicer.format.formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.json\_formatter module
+------------------------------------------
+
+.. automodule:: data_juicer.format.json_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.load module
+-------------------------------
+
+.. automodule:: data_juicer.format.load
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.mixture\_formatter module
+---------------------------------------------
+
+.. automodule:: data_juicer.format.mixture_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.parquet\_formatter module
+---------------------------------------------
+
+.. automodule:: data_juicer.format.parquet_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.text\_formatter module
+------------------------------------------
+
+.. automodule:: data_juicer.format.text_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.format.tsv\_formatter module
+-----------------------------------------
+
+.. automodule:: data_juicer.format.tsv_formatter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.format
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.aggregator.rst.txt b/_sources/data_juicer.ops.aggregator.rst.txt
index e514e4ef1..dea32f5de 100644
--- a/_sources/data_juicer.ops.aggregator.rst.txt
+++ b/_sources/data_juicer.ops.aggregator.rst.txt
@@ -1,7 +1,37 @@
-data_juicer.ops.aggregator
-==========================
+data\_juicer.ops.aggregator package
+===================================
+
+Submodules
+----------
+
+data\_juicer.ops.aggregator.entity\_attribute\_aggregator module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.entity_attribute_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.aggregator.most\_relavant\_entities\_aggregator module
+-----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.most_relavant_entities_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.aggregator.nested\_aggregator module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.aggregator.nested_aggregator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.aggregator
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.common.rst.txt b/_sources/data_juicer.ops.common.rst.txt
index aff6737ec..be34ff5bf 100644
--- a/_sources/data_juicer.ops.common.rst.txt
+++ b/_sources/data_juicer.ops.common.rst.txt
@@ -1,7 +1,29 @@
-data_juicer.ops.common
-======================
+data\_juicer.ops.common package
+===============================
+
+Submodules
+----------
+
+data\_juicer.ops.common.helper\_func module
+-------------------------------------------
+
+.. automodule:: data_juicer.ops.common.helper_func
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.common.special\_characters module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.common.special_characters
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.common
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.deduplicator.rst.txt b/_sources/data_juicer.ops.deduplicator.rst.txt
index 6cc2a95e7..940ed96d1 100644
--- a/_sources/data_juicer.ops.deduplicator.rst.txt
+++ b/_sources/data_juicer.ops.deduplicator.rst.txt
@@ -1,7 +1,85 @@
-data_juicer.ops.deduplicator
-============================
+data\_juicer.ops.deduplicator package
+=====================================
+
+Submodules
+----------
+
+data\_juicer.ops.deduplicator.document\_deduplicator module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.document_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.document\_minhash\_deduplicator module
+--------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.document_minhash_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.document\_simhash\_deduplicator module
+--------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.document_simhash_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.image\_deduplicator module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.image_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_basic\_deduplicator module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_basic_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_document\_deduplicator module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_document_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_image\_deduplicator module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_image_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.ray\_video\_deduplicator module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.ray_video_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.deduplicator.video\_deduplicator module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.deduplicator.video_deduplicator
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.deduplicator
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.filter.rst.txt b/_sources/data_juicer.ops.filter.rst.txt
index f6ad3f5f6..c61a299c9 100644
--- a/_sources/data_juicer.ops.filter.rst.txt
+++ b/_sources/data_juicer.ops.filter.rst.txt
@@ -1,7 +1,365 @@
-data_juicer.ops.filter
-======================
+data\_juicer.ops.filter package
+===============================
+
+Submodules
+----------
+
+data\_juicer.ops.filter.alphanumeric\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.alphanumeric_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.audio\_duration\_filter module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.audio_duration_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.audio\_nmf\_snr\_filter module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.audio_nmf_snr_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.audio\_size\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.audio_size_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.average\_line\_length\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.average_line_length_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.character\_repetition\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.character_repetition_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.flagged\_words\_filter module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.flagged_words_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_aesthetics\_filter module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_aesthetics_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_aspect\_ratio\_filter module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_aspect_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_face\_count\_filter module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_face_count_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_face\_ratio\_filter module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_face_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_nsfw\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_nsfw_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_pair\_similarity\_filter module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_pair_similarity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_shape\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_shape_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_size\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_size_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_text\_matching\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_text_matching_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_text\_similarity\_filter module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_text_similarity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.image\_watermark\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.image_watermark_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.language\_id\_score\_filter module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.language_id_score_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.maximum\_line\_length\_filter module
+------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.maximum_line_length_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.perplexity\_filter module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.perplexity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.phrase\_grounding\_recall\_filter module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.phrase_grounding_recall_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.special\_characters\_filter module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.special_characters_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.specified\_field\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.specified_field_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.specified\_numeric\_field\_filter module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.specified_numeric_field_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.stopwords\_filter module
+------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.stopwords_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.suffix\_filter module
+---------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.suffix_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.text\_action\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.text_action_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.text\_entity\_dependency\_filter module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.text_entity_dependency_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.text\_length\_filter module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.text_length_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.token\_num\_filter module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.token_num_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_aesthetics\_filter module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_aesthetics_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_aspect\_ratio\_filter module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_aspect_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_duration\_filter module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_duration_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_frames\_text\_similarity\_filter module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_frames_text_similarity_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_motion\_score\_filter module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_motion_score_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_motion\_score\_raft\_filter module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_motion_score_raft_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_nsfw\_filter module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_nsfw_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_ocr\_area\_ratio\_filter module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_ocr_area_ratio_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_resolution\_filter module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_resolution_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_tagging\_from\_frames\_filter module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_tagging_from_frames_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.video\_watermark\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.video_watermark_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.word\_repetition\_filter module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.word_repetition_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.filter.words\_num\_filter module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.filter.words_num_filter
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.filter
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.grouper.rst.txt b/_sources/data_juicer.ops.grouper.rst.txt
index 4a8a8ad1a..5c0fe23a3 100644
--- a/_sources/data_juicer.ops.grouper.rst.txt
+++ b/_sources/data_juicer.ops.grouper.rst.txt
@@ -1,7 +1,29 @@
-data_juicer.ops.grouper
-=======================
+data\_juicer.ops.grouper package
+================================
+
+Submodules
+----------
+
+data\_juicer.ops.grouper.key\_value\_grouper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.grouper.key_value_grouper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.grouper.naive\_grouper module
+----------------------------------------------
+
+.. automodule:: data_juicer.ops.grouper.naive_grouper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.grouper
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.mapper.rst.txt b/_sources/data_juicer.ops.mapper.rst.txt
index a0e036e46..99aa11702 100644
--- a/_sources/data_juicer.ops.mapper.rst.txt
+++ b/_sources/data_juicer.ops.mapper.rst.txt
@@ -1,7 +1,525 @@
-data_juicer.ops.mapper
-======================
+data\_juicer.ops.mapper package
+===============================
+
+Submodules
+----------
+
+data\_juicer.ops.mapper.audio\_ffmpeg\_wrapped\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.calibrate\_qa\_mapper module
+----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.calibrate_qa_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.calibrate\_query\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.calibrate_query_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.calibrate\_response\_mapper module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.calibrate_response_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.chinese\_convert\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.chinese_convert_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_copyright\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_copyright_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_email\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_email_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_html\_mapper module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_html_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_ip\_mapper module
+------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_ip_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.clean\_links\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.clean_links_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.expand\_macro\_mapper module
+----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.expand_macro_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_entity\_attribute\_mapper module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_entity_attribute_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_entity\_relation\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_entity_relation_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_event\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_event_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_keyword\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_keyword_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_nickname\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_nickname_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.extract\_support\_text\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.extract_support_text_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.fix\_unicode\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.fix_unicode_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.generate\_qa\_from\_examples\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.generate_qa_from_examples_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.generate\_qa\_from\_text\_mapper module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.generate_qa_from_text_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_blur\_mapper module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_blur_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_captioning\_from\_gpt4v\_mapper module
+---------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_captioning\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_captioning_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_diffusion\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_diffusion_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_face\_blur\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_face_blur_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.image\_tagging\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.image_tagging_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.nlpaug\_en\_mapper module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.nlpaug_en_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.nlpcda\_zh\_mapper module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.nlpcda_zh_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.optimize\_qa\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.optimize_qa_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.optimize\_query\_mapper module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.optimize_query_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.optimize\_response\_mapper module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.optimize_response_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.pair\_preference\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.pair_preference_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.punctuation\_normalization\_mapper module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.punctuation_normalization_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.python\_file\_mapper module
+---------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.python_file_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.python\_lambda\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.python_lambda_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.relation\_identity\_mapper module
+---------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.relation_identity_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_bibliography\_mapper module
+-----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_bibliography_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_comments\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_comments_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_header\_mapper module
+-----------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_header_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_long\_words\_mapper module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_long_words_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_non\_chinese\_character\_mapper module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_non_chinese_character_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_repeat\_sentences\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_repeat_sentences_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_specific\_chars\_mapper module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_specific_chars_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_table\_text\_mapper module
+----------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_table_text_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.remove\_words\_with\_incorrect\_substrings\_mapper module
+---------------------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.replace\_content\_mapper module
+-------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.replace_content_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.sentence\_split\_mapper module
+------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.sentence_split_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.text\_chunk\_mapper module
+--------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.text_chunk_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_audio\_mapper module
+---------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_audio_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_frames\_mapper module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_frames_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_summarizer\_mapper module
+--------------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_summarizer_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_captioning\_from\_video\_mapper module
+---------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_captioning_from_video_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_extract\_frames\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_extract_frames_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_face\_blur\_mapper module
+--------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_face_blur_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_ffmpeg\_wrapped\_mapper module
+-------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_remove\_watermark\_mapper module
+---------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_remove_watermark_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_resize\_aspect\_ratio\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_resize_aspect_ratio_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_resize\_resolution\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_resize_resolution_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_split\_by\_duration\_mapper module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_split_by_duration_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_split\_by\_key\_frame\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_split_by_key_frame_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_split\_by\_scene\_mapper module
+--------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_split_by_scene_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_tagging\_from\_audio\_mapper module
+------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_tagging_from_audio_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.video\_tagging\_from\_frames\_mapper module
+-------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.video_tagging_from_frames_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.mapper.whitespace\_normalization\_mapper module
+----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.mapper.whitespace_normalization_mapper
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.mapper
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.rst.txt b/_sources/data_juicer.ops.rst.txt
index 56cf7fd48..93bd281bd 100644
--- a/_sources/data_juicer.ops.rst.txt
+++ b/_sources/data_juicer.ops.rst.txt
@@ -1,7 +1,51 @@
-data_juicer.ops
-===============
+data\_juicer.ops package
+========================
+
+Subpackages
+-----------
+
+.. toctree::
+   :maxdepth: 4
+
+   data_juicer.ops.aggregator
+   data_juicer.ops.common
+   data_juicer.ops.deduplicator
+   data_juicer.ops.filter
+   data_juicer.ops.grouper
+   data_juicer.ops.mapper
+   data_juicer.ops.selector
+
+Submodules
+----------
+
+data\_juicer.ops.base\_op module
+--------------------------------
+
+.. automodule:: data_juicer.ops.base_op
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.load module
+----------------------------
+
+.. automodule:: data_juicer.ops.load
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.op\_fusion module
+----------------------------------
+
+.. automodule:: data_juicer.ops.op_fusion
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.ops.selector.rst.txt b/_sources/data_juicer.ops.selector.rst.txt
index f4092e8c2..f78c59ec3 100644
--- a/_sources/data_juicer.ops.selector.rst.txt
+++ b/_sources/data_juicer.ops.selector.rst.txt
@@ -1,7 +1,45 @@
-data_juicer.ops.selector
-========================
+data\_juicer.ops.selector package
+=================================
+
+Submodules
+----------
+
+data\_juicer.ops.selector.frequency\_specified\_field\_selector module
+----------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.frequency_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.random\_selector module
+-------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.random_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.range\_specified\_field\_selector module
+------------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.range_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.ops.selector.topk\_specified\_field\_selector module
+-----------------------------------------------------------------
+
+.. automodule:: data_juicer.ops.selector.topk_specified_field_selector
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.ops.selector
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.rst.txt b/_sources/data_juicer.rst.txt
index 0aa1c32af..91c39178f 100644
--- a/_sources/data_juicer.rst.txt
+++ b/_sources/data_juicer.rst.txt
@@ -1,7 +1,24 @@
-data_juicer
-===========
+data\_juicer package
+====================
+
+Subpackages
+-----------
+
+.. toctree::
+   :maxdepth: 4
+
+   data_juicer.analysis
+   data_juicer.config
+   data_juicer.core
+   data_juicer.format
+   data_juicer.ops
+   data_juicer.tools
+   data_juicer.utils
+
+Module contents
+---------------
 
 .. automodule:: data_juicer
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.tools.rst.txt b/_sources/data_juicer.tools.rst.txt
index 61a7e299c..352714fa1 100644
--- a/_sources/data_juicer.tools.rst.txt
+++ b/_sources/data_juicer.tools.rst.txt
@@ -1,7 +1,10 @@
-data_juicer.tools
-=================
+data\_juicer.tools package
+==========================
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.tools
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_sources/data_juicer.utils.rst.txt b/_sources/data_juicer.utils.rst.txt
index 6ebd69b75..ac3e60118 100644
--- a/_sources/data_juicer.utils.rst.txt
+++ b/_sources/data_juicer.utils.rst.txt
@@ -1,7 +1,165 @@
-data_juicer.utils
-=================
+data\_juicer.utils package
+==========================
+
+Submodules
+----------
+
+data\_juicer.utils.asset\_utils module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.asset_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.auto\_install\_mapping module
+------------------------------------------------
+
+.. automodule:: data_juicer.utils.auto_install_mapping
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.auto\_install\_utils module
+----------------------------------------------
+
+.. automodule:: data_juicer.utils.auto_install_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.availability\_utils module
+---------------------------------------------
+
+.. automodule:: data_juicer.utils.availability_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.cache\_utils module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.cache_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.ckpt\_utils module
+-------------------------------------
+
+.. automodule:: data_juicer.utils.ckpt_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.common\_utils module
+---------------------------------------
+
+.. automodule:: data_juicer.utils.common_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.compress module
+----------------------------------
+
+.. automodule:: data_juicer.utils.compress
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.constant module
+----------------------------------
+
+.. automodule:: data_juicer.utils.constant
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.file\_utils module
+-------------------------------------
+
+.. automodule:: data_juicer.utils.file_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.fingerprint\_utils module
+--------------------------------------------
+
+.. automodule:: data_juicer.utils.fingerprint_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.lazy\_loader module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.lazy_loader
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.logger\_utils module
+---------------------------------------
+
+.. automodule:: data_juicer.utils.logger_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.mm\_utils module
+-----------------------------------
+
+.. automodule:: data_juicer.utils.mm_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.model\_utils module
+--------------------------------------
+
+.. automodule:: data_juicer.utils.model_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.process\_utils module
+----------------------------------------
+
+.. automodule:: data_juicer.utils.process_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.registry module
+----------------------------------
+
+.. automodule:: data_juicer.utils.registry
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.resource\_utils module
+-----------------------------------------
+
+.. automodule:: data_juicer.utils.resource_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+data\_juicer.utils.unittest\_utils module
+-----------------------------------------
+
+.. automodule:: data_juicer.utils.unittest_utils
+   :members:
+   :undoc-members:
+   :show-inheritance:
+
+Module contents
+---------------
 
 .. automodule:: data_juicer.utils
    :members:
    :undoc-members:
-   :show-inheritance:
\ No newline at end of file
+   :show-inheritance:
diff --git a/_static/basic.css b/_static/basic.css
index 7ebbd6d07..f316efcb4 100644
--- a/_static/basic.css
+++ b/_static/basic.css
@@ -1,5 +1,12 @@
 /*
+ * basic.css
+ * ~~~~~~~~~
+ *
  * Sphinx stylesheet -- basic theme.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 
 /* -- main layout ----------------------------------------------------------- */
@@ -108,11 +115,15 @@ img {
 /* -- search page ----------------------------------------------------------- */
 
 ul.search {
-    margin-top: 10px;
+    margin: 10px 0 0 20px;
+    padding: 0;
 }
 
 ul.search li {
-    padding: 5px 0;
+    padding: 5px 0 5px 20px;
+    background-image: url(file.png);
+    background-repeat: no-repeat;
+    background-position: 0 7px;
 }
 
 ul.search li a {
diff --git a/_static/doctools.js b/_static/doctools.js
index 0398ebb9f..4d67807d1 100644
--- a/_static/doctools.js
+++ b/_static/doctools.js
@@ -1,5 +1,12 @@
 /*
+ * doctools.js
+ * ~~~~~~~~~~~
+ *
  * Base JavaScript utilities for all Sphinx HTML documentation.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 "use strict";
 
diff --git a/_static/language_data.js b/_static/language_data.js
index c7fe6c6fa..367b8ed81 100644
--- a/_static/language_data.js
+++ b/_static/language_data.js
@@ -1,6 +1,13 @@
 /*
+ * language_data.js
+ * ~~~~~~~~~~~~~~~~
+ *
  * This script contains the language-specific data used by searchtools.js,
  * namely the list of stopwords, stemmer, scorer and splitter.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 
 var stopwords = ["a", "and", "are", "as", "at", "be", "but", "by", "for", "if", "in", "into", "is", "it", "near", "no", "not", "of", "on", "or", "such", "that", "the", "their", "then", "there", "these", "they", "this", "to", "was", "will", "with"];
diff --git a/_static/searchtools.js b/_static/searchtools.js
index 2c774d17a..b08d58c9b 100644
--- a/_static/searchtools.js
+++ b/_static/searchtools.js
@@ -1,5 +1,12 @@
 /*
+ * searchtools.js
+ * ~~~~~~~~~~~~~~~~
+ *
  * Sphinx JavaScript utilities for the full-text search.
+ *
+ * :copyright: Copyright 2007-2024 by the Sphinx team, see AUTHORS.
+ * :license: BSD, see LICENSE for details.
+ *
  */
 "use strict";
 
@@ -13,7 +20,7 @@ if (typeof Scorer === "undefined") {
     // and returns the new score.
     /*
     score: result => {
-      const [docname, title, anchor, descr, score, filename, kind] = result
+      const [docname, title, anchor, descr, score, filename] = result
       return score
     },
     */
@@ -40,14 +47,6 @@ if (typeof Scorer === "undefined") {
   };
 }
 
-// Global search result kind enum, used by themes to style search results.
-class SearchResultKind {
-    static get index() { return  "index"; }
-    static get object() { return "object"; }
-    static get text() { return "text"; }
-    static get title() { return "title"; }
-}
-
 const _removeChildren = (element) => {
   while (element && element.lastChild) element.removeChild(element.lastChild);
 };
@@ -65,13 +64,9 @@ const _displayItem = (item, searchTerms, highlightTerms) => {
   const showSearchSummary = DOCUMENTATION_OPTIONS.SHOW_SEARCH_SUMMARY;
   const contentRoot = document.documentElement.dataset.content_root;
 
-  const [docName, title, anchor, descr, score, _filename, kind] = item;
+  const [docName, title, anchor, descr, score, _filename] = item;
 
   let listItem = document.createElement("li");
-  // Add a class representing the item's type:
-  // can be used by a theme's CSS selector for styling
-  // See SearchResultKind for the class names.
-  listItem.classList.add(`kind-${kind}`);
   let requestUrl;
   let linkUrl;
   if (docBuilder === "dirhtml") {
@@ -120,10 +115,8 @@ const _finishSearch = (resultCount) => {
       "Your search did not match any documents. Please make sure that all words are spelled correctly and that you've selected enough categories."
     );
   else
-    Search.status.innerText = Documentation.ngettext(
-      "Search finished, found one page matching the search query.",
-      "Search finished, found ${resultCount} pages matching the search query.",
-      resultCount,
+    Search.status.innerText = _(
+      "Search finished, found ${resultCount} page(s) matching the search query."
     ).replace('${resultCount}', resultCount);
 };
 const _displayNextItem = (
@@ -145,7 +138,7 @@ const _displayNextItem = (
   else _finishSearch(resultCount);
 };
 // Helper function used by query() to order search results.
-// Each input is an array of [docname, title, anchor, descr, score, filename, kind].
+// Each input is an array of [docname, title, anchor, descr, score, filename].
 // Order the results by score (in opposite order of appearance, since the
 // `_displayNextItem` function uses pop() to retrieve items) and then alphabetically.
 const _orderResultsByScoreThenName = (a, b) => {
@@ -255,7 +248,6 @@ const Search = {
     searchSummary.classList.add("search-summary");
     searchSummary.innerText = "";
     const searchList = document.createElement("ul");
-    searchList.setAttribute("role", "list");
     searchList.classList.add("search");
 
     const out = document.getElementById("search-results");
@@ -326,7 +318,7 @@ const Search = {
     const indexEntries = Search._index.indexentries;
 
     // Collect multiple result groups to be sorted separately and then ordered.
-    // Each is an array of [docname, title, anchor, descr, score, filename, kind].
+    // Each is an array of [docname, title, anchor, descr, score, filename].
     const normalResults = [];
     const nonMainIndexResults = [];
 
@@ -345,7 +337,6 @@ const Search = {
             null,
             score + boost,
             filenames[file],
-            SearchResultKind.title,
           ]);
         }
       }
@@ -363,7 +354,6 @@ const Search = {
             null,
             score,
             filenames[file],
-            SearchResultKind.index,
           ];
           if (isMain) {
             normalResults.push(result);
@@ -485,7 +475,6 @@ const Search = {
         descr,
         score,
         filenames[match[0]],
-        SearchResultKind.object,
       ]);
     };
     Object.keys(objects).forEach((prefix) =>
@@ -596,7 +585,6 @@ const Search = {
         null,
         score,
         filenames[file],
-        SearchResultKind.text,
       ]);
     }
     return results;
diff --git a/data_juicer.analysis.html b/data_juicer.analysis.html
index ab6a470f7..6658b94c4 100644
--- a/data_juicer.analysis.html
+++ b/data_juicer.analysis.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.analysis &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.analysis package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.config" href="data_juicer.config.html" />
-    <link rel="prev" title="data_juicer.ops.common" href="data_juicer.ops.common.html" /> 
+    <link rel="next" title="data_juicer.config package" href="data_juicer.config.html" />
+    <link rel="prev" title="data_juicer.ops.selector package" href="data_juicer.ops.selector.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,21 +42,26 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.analysis</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.analysis package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.analysis">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -73,7 +78,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.analysis</li>
+      <li class="breadcrumb-item active">data_juicer.analysis package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.analysis.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -83,8 +88,481 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.analysis">
-<span id="data-juicer-analysis"></span><h1>data_juicer.analysis<a class="headerlink" href="#module-data_juicer.analysis" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-analysis-package">
+<h1>data_juicer.analysis package<a class="headerlink" href="#data-juicer-analysis-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.analysis.collector">
+<span id="data-juicer-analysis-collector-module"></span><h2>data_juicer.analysis.collector module<a class="headerlink" href="#module-data_juicer.analysis.collector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.collector.TextTokenDistCollector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.collector.</span></span><span class="sig-name descname"><span class="pre">TextTokenDistCollector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/collector.html#TextTokenDistCollector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.collector.TextTokenDistCollector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Tokenize and collect distribution of tokens for given
+dataset with a specified tokenizer.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.collector.TextTokenDistCollector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/collector.html#TextTokenDistCollector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.collector.TextTokenDistCollector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>tokenizer</strong> – tokenizer name on huggingface</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.collector.TextTokenDistCollector.collect">
+<span class="sig-name descname"><span class="pre">collect</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Categorical</span></span></span><a class="reference internal" href="_modules/data_juicer/analysis/collector.html#TextTokenDistCollector.collect"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.collector.TextTokenDistCollector.collect" title="Link to this definition">¶</a></dt>
+<dd><p>Tokenize and collect tokens distribution of input dataset
+:param data_path: path to input dataset.
+:param text_key: field keys that will be considered into token counts.
+:param num_proc: number of processes to count tokens.
+:return: token distribution.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.column_wise_analysis">
+<span id="data-juicer-analysis-column-wise-analysis-module"></span><h2>data_juicer.analysis.column_wise_analysis module<a class="headerlink" href="#module-data_juicer.analysis.column_wise_analysis" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.get_row_col">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">get_row_col</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">total_num</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#get_row_col"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.get_row_col" title="Link to this definition">¶</a></dt>
+<dd><p>Given the total number of stats figures, get the “best” number of rows and
+columns. This function is needed when we need to store all stats figures
+into one image.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>total_num</strong> – Total number of stats figures</p></li>
+<li><p><strong>factor</strong> – Number of sub-figure types in each figure. In
+default, it’s 2, which means there are histogram and box plot
+for each stat figure</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>“best” number of rows and columns, and the grid list</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.column_wise_analysis.</span></span><span class="sig-name descname"><span class="pre">ColumnWiseAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Apply analysis on each column of stats respectively.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to be analyzed</p></li>
+<li><p><strong>output_path</strong> – path to store the analysis results</p></li>
+<li><p><strong>overall_result</strong> – optional precomputed overall stats result</p></li>
+<li><p><strong>save_stats_in_one_file</strong> – whether save all analysis figures of all
+stats into one image file</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze">
+<span class="sig-name descname"><span class="pre">analyze</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">show_percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.analyze"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze" title="Link to this definition">¶</a></dt>
+<dd><p>Apply analysis and draw the analysis figure for stats.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>show_percentiles</strong> – whether to show the percentile line in
+each sub-figure. If it’s true, there will be several red
+lines to indicate the quantiles of the stats distributions</p></li>
+<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
+<li><p><strong>skip_export</strong> – whether save the results into disk</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">
+<span class="sig-name descname"><span class="pre">draw_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist" title="Link to this definition">¶</a></dt>
+<dd><p>Draw the histogram for the data.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ax</strong> – the axes to draw</p></li>
+<li><p><strong>data</strong> – data to draw</p></li>
+<li><p><strong>save_path</strong> – the path to save the histogram figure</p></li>
+<li><p><strong>percentiles</strong> – the overall analysis result of the data
+including percentile information</p></li>
+<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">
+<span class="sig-name descname"><span class="pre">draw_box</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_box"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box" title="Link to this definition">¶</a></dt>
+<dd><p>Draw the box plot for the data.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ax</strong> – the axes to draw</p></li>
+<li><p><strong>data</strong> – data to draw</p></li>
+<li><p><strong>save_path</strong> – the path to save the box figure</p></li>
+<li><p><strong>percentiles</strong> – the overall analysis result of the data
+including percentile information</p></li>
+<li><p><strong>show</strong> – whether to show in a single window after drawing</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud">
+<span class="sig-name descname"><span class="pre">draw_wordcloud</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ax</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis.draw_wordcloud"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.diversity_analysis">
+<span id="data-juicer-analysis-diversity-analysis-module"></span><h2>data_juicer.analysis.diversity_analysis module<a class="headerlink" href="#module-data_juicer.analysis.diversity_analysis" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">find_root_verb_and_its_dobj</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tree_root</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#find_root_verb_and_its_dobj"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj" title="Link to this definition">¶</a></dt>
+<dd><p>Find the verb and its object closest to the root.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>tree_root</strong> – the root of lexical tree</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>valid verb and its object.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">find_root_verb_and_its_dobj_in_string</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">nlp</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">s</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">first_sent</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#find_root_verb_and_its_dobj_in_string"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string" title="Link to this definition">¶</a></dt>
+<dd><p>Find the verb and its object closest to the root of lexical tree of input
+string.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>nlp</strong> – the diversity model to analyze the diversity strings</p></li>
+<li><p><strong>s</strong> – the string to be analyzed</p></li>
+<li><p><strong>first_sent</strong> – whether to analyze the first sentence in the
+input string only. If it’s true, return the analysis result of
+the first sentence no matter it’s valid or not. If it’s false,
+return the first valid result over all sentences</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>valid verb and its object of this string</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.get_diversity">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">get_diversity</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_k_verbs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_k_nouns</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#get_diversity"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.get_diversity" title="Link to this definition">¶</a></dt>
+<dd><p>Given the lexical tree analysis result, return the diversity results.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – lexical tree analysis result</p></li>
+<li><p><strong>top_k_verbs</strong> – only keep the top_k_verbs largest verb groups</p></li>
+<li><p><strong>top_k_nouns</strong> – only keep the top_k_nouns largest noun groups
+for each verb group</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the diversity results</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.diversity_analysis.</span></span><span class="sig-name descname"><span class="pre">DiversityAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Apply diversity analysis for each sample and get an overall analysis
+result.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'en'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method :param dataset: the dataset to be analyzed
+:param output_path: path to store the analysis results :param
+lang_or_model: the diversity model or a specific language used to load
+the diversity model.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">
+<span class="sig-name descname"><span class="pre">compute</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'text'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.compute"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute" title="Link to this definition">¶</a></dt>
+<dd><p>Apply lexical tree analysis on each sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang_or_model</strong> – the diversity model or a specific language
+used to load the diversity model</p></li>
+<li><p><strong>column_name</strong> – the name of column to be analyzed</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the analysis result.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze">
+<span class="sig-name descname"><span class="pre">analyze</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang_or_model=None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_name='text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">postproc_func=&lt;function</span> <span class="pre">get_diversity&gt;</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">**postproc_kwarg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/diversity_analysis.html#DiversityAnalysis.analyze"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze" title="Link to this definition">¶</a></dt>
+<dd><p>Apply diversity analysis on the whole dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang_or_model</strong> – the diversity model or a specific language
+used to load the diversity model</p></li>
+<li><p><strong>column_name</strong> – the name of column to be analyzed</p></li>
+<li><p><strong>postproc_func</strong> – function to analyze diversity. In default,
+it’s function get_diversity</p></li>
+<li><p><strong>postproc_kwarg</strong> – arguments of the postproc_func</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.draw">
+<span id="data-juicer-analysis-draw-module"></span><h2>data_juicer.analysis.draw module<a class="headerlink" href="#module-data_juicer.analysis.draw" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.analysis.draw.draw_heatmap">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.draw.</span></span><span class="sig-name descname"><span class="pre">draw_heatmap</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">xlabels</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ylables</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">figsize</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">triangle</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/draw.html#draw_heatmap"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.draw.draw_heatmap" title="Link to this definition">¶</a></dt>
+<dd><p>Draw heatmap of input data with special lables.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>data</strong> – input data, now support
+[<cite>list</cite>, <cite>tuple</cite>, <cite>numpy array</cite>, ‘torch tensor’]</p></li>
+<li><p><strong>xlabels</strong> – x axis labels.</p></li>
+<li><p><strong>ylabels</strong> – y axis labels, if None, use xlabels.</p></li>
+<li><p><strong>figsize</strong> – figure size.</p></li>
+<li><p><strong>triangle</strong> – only display triangle.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a plot figure.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.measure">
+<span id="data-juicer-analysis-measure-module"></span><h2>data_juicer.analysis.measure module<a class="headerlink" href="#module-data_juicer.analysis.measure" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.Measure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">Measure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#Measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.Measure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Base class for Measure distribution.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.Measure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'base'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.Measure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.Measure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#Measure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.Measure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.KLDivMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">KLDivMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#KLDivMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.KLDivMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Kullback-Leibler divergence.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.KLDivMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'kl_divergence'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.KLDivMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.KLDivMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#KLDivMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.KLDivMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.JSDivMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">JSDivMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#JSDivMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.JSDivMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Jensen-Shannon divergence.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.JSDivMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'js_divergence'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.JSDivMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.JSDivMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#JSDivMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.JSDivMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.CrossEntropyMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">CrossEntropyMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#CrossEntropyMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.CrossEntropyMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Cross-Entropy.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.CrossEntropyMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'cross_entropy'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.CrossEntropyMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.CrossEntropyMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#CrossEntropyMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.CrossEntropyMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.EntropyMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">EntropyMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#EntropyMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.EntropyMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure Entropy.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.EntropyMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'entropy'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.EntropyMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.EntropyMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#EntropyMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.EntropyMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.measure.</span></span><span class="sig-name descname"><span class="pre">RelatedTTestMeasure</span></span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.analysis.measure.Measure" title="data_juicer.analysis.measure.Measure"><code class="xref py py-class docutils literal notranslate"><span class="pre">Measure</span></code></a></p>
+<p>Measure T-Test for two related distributions on their histogram of the same
+bins.</p>
+<p>Ref:
+<a class="reference external" href="https://en.wikipedia.org/wiki/Student%27s_t-test">https://en.wikipedia.org/wiki/Student%27s_t-test</a></p>
+<p>For continuous features or distributions, the input could be dataset stats
+list.
+For discrete features or distributions, the input could be the tags or the
+categories list.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.name">
+<span class="sig-name descname"><span class="pre">name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'t-test'</span></em><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">stats_to_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure.stats_to_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">category_to_hist</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure.category_to_hist"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.measure.RelatedTTestMeasure.measure">
+<span class="sig-name descname"><span class="pre">measure</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">q</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/measure.html#RelatedTTestMeasure.measure"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.measure.RelatedTTestMeasure.measure" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>p</strong> – the first feature or distribution. (stats/tags/categories)</p></li>
+<li><p><strong>q</strong> – the second feature or distribution. (stats/tags/categories)</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the T-Test results object – ([ref](<a class="reference external" href="https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats._result_classes.TtestResult.html#scipy.stats._result_classes.TtestResult">https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats._result_classes.TtestResult.html#scipy.stats._result_classes.TtestResult</a>))  # noqa: E501</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis.overall_analysis">
+<span id="data-juicer-analysis-overall-analysis-module"></span><h2>data_juicer.analysis.overall_analysis module<a class="headerlink" href="#module-data_juicer.analysis.overall_analysis" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.overall_analysis.</span></span><span class="sig-name descname"><span class="pre">OverallAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Apply analysis on the overall stats, including mean, std, quantiles,
+etc.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to be analyzed</p></li>
+<li><p><strong>output_path</strong> – path to store the analysis results.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column">
+<span class="sig-name descname"><span class="pre">refine_single_column</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">col</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.refine_single_column"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.analysis.overall_analysis.OverallAnalysis.analyze">
+<span class="sig-name descname"><span class="pre">analyze</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">percentiles</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/overall_analysis.html#OverallAnalysis.analyze"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze" title="Link to this definition">¶</a></dt>
+<dd><p>Apply overall analysis on the whole dataset based on the describe
+method of pandas.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>percentiles</strong> – percentiles to analyze</p></li>
+<li><p><strong>num_proc</strong> – number of processes to analyze the dataset</p></li>
+<li><p><strong>skip_export</strong> – whether export the results to disk</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the overall analysis result.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.analysis">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.analysis" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.analysis.ColumnWiseAnalysis">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.analysis.</span></span><span class="sig-name descname"><span class="pre">ColumnWiseAnalysis</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overall_result</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">save_stats_in_one_file</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/analysis/column_wise_analysis.html#ColumnWiseAnalysis"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.analysis.ColumnWiseAnalysis" title="Link to this definition">¶</a></dt>
@@ -278,14 +756,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-left" title="data_juicer.ops.common" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.config.html" class="btn btn-neutral float-right" title="data_juicer.config" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-left" title="data_juicer.ops.selector package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.config.html" class="btn btn-neutral float-right" title="data_juicer.config package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.config.html b/data_juicer.config.html
index 0037d6877..8fb360ce2 100644
--- a/data_juicer.config.html
+++ b/data_juicer.config.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.config &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.config package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.format" href="data_juicer.format.html" />
-    <link rel="prev" title="data_juicer.analysis" href="data_juicer.analysis.html" /> 
+    <link rel="next" title="data_juicer.format package" href="data_juicer.format.html" />
+    <link rel="prev" title="data_juicer.analysis package" href="data_juicer.analysis.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,23 +42,21 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.config</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.config package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.config.config">data_juicer.config.config module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.config">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -75,7 +73,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.config</li>
+      <li class="breadcrumb-item active">data_juicer.config package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.config.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -85,8 +83,177 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.config">
-<span id="data-juicer-config"></span><h1>data_juicer.config<a class="headerlink" href="#module-data_juicer.config" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-config-package">
+<h1>data_juicer.config package<a class="headerlink" href="#data-juicer-config-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.config.config">
+<span id="data-juicer-config-config-module"></span><h2>data_juicer.config.config module<a class="headerlink" href="#module-data_juicer.config.config" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.init_configs">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">which_entry</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">object</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.init_configs" title="Link to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>initialize the jsonargparse parser and parse configs from one of:</dt><dd><ol class="arabic simple">
+<li><p>POSIX-style commands line args;</p></li>
+<li><p>config files in yaml (json and jsonnet supersets);</p></li>
+<li><p>environment variables</p></li>
+<li><p>hard-coded defaults</p></li>
+</ol>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – list of params, e.g., [’–conifg’, ‘cfg.yaml’], defaut None.</p></li>
+<li><p><strong>which_entry</strong> – which entry to init configs (executor/analyzer)</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a global cfg object used by the Executor or Analyzer</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.update_ds_cache_dir_and_related_vars">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">update_ds_cache_dir_and_related_vars</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">new_ds_cache_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#update_ds_cache_dir_and_related_vars"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.update_ds_cache_dir_and_related_vars" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.init_setup_from_cfg">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">init_setup_from_cfg</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_setup_from_cfg"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.init_setup_from_cfg" title="Link to this definition">¶</a></dt>
+<dd><p>Do some extra setup tasks after parsing config file or command line.</p>
+<ol class="arabic simple">
+<li><p>create working directory and a log directory</p></li>
+<li><p>update cache directory</p></li>
+<li><p>update checkpoint and <cite>temp_dir</cite> of tempfile</p></li>
+</ol>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cfg</strong> – an original cfg</p></li>
+<li><p><strong>cfg</strong> – an updated cfg</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.load_ops_with_stats_meta">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">load_ops_with_stats_meta</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#load_ops_with_stats_meta"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.load_ops_with_stats_meta" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.update_op_attr">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">update_op_attr</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_dict</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#update_op_attr"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.update_op_attr" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.sort_op_by_types_and_names">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">sort_op_by_types_and_names</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name_classes</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#sort_op_by_types_and_names"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.sort_op_by_types_and_names" title="Link to this definition">¶</a></dt>
+<dd><p>Split ops items by op type and sort them to sub-ops by name, then concat
+together.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>op_name_classes</strong> – a list of op modules</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sorted op list , each item is a pair of op_name and
+op_class</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.update_op_process">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">update_op_process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">parser</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#update_op_process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.update_op_process" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.namespace_to_arg_list">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">namespace_to_arg_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">namespace</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prefix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">includes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">excludes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#namespace_to_arg_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.namespace_to_arg_list" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.config_backup">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">config_backup</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#config_backup"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.config_backup" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.display_config">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">display_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#display_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.display_config" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.export_config">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">export_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'yaml'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_none</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_check</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multifile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#export_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.export_config" title="Link to this definition">¶</a></dt>
+<dd><p>Save the config object, some params are from jsonargparse</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cfg</strong> – cfg object to save (Namespace type)</p></li>
+<li><p><strong>path</strong> – the save path</p></li>
+<li><p><strong>format</strong> – ‘yaml’, ‘json’, ‘json_indented’, ‘parser_mode’</p></li>
+<li><p><strong>skip_none</strong> – Whether to exclude entries whose value is None.</p></li>
+<li><p><strong>skip_check</strong> – Whether to skip parser checking.</p></li>
+<li><p><strong>overwrite</strong> – Whether to overwrite existing files.</p></li>
+<li><p><strong>multifile</strong> – Whether to save multiple config files
+by using the __path__ metas.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.merge_config">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">merge_config</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ori_cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#merge_config"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.merge_config" title="Link to this definition">¶</a></dt>
+<dd><p>Merge configuration from new_cfg into ori_cfg</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ori_cfg</strong> – the original configuration object, whose type is
+expected as namespace from jsonargparse</p></li>
+<li><p><strong>new_cfg</strong> – the configuration object to be merged, whose type is
+expected as dict or namespace from jsonargparse</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>cfg_after_merge</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.prepare_side_configs">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">prepare_side_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ori_config</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#prepare_side_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.prepare_side_configs" title="Link to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>parse the config if ori_config is a string of a config file path with</dt><dd><p>yaml, yml or json format</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>ori_config</strong> – a config dict or a string of a config file path with
+yaml, yml or json format</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a config dict</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.config.config.get_init_configs">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.config.config.</span></span><span class="sig-name descname"><span class="pre">get_init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#get_init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.config.get_init_configs" title="Link to this definition">¶</a></dt>
+<dd><p>set init configs of datajucer for cfg</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.config">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.config" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.config.init_configs">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.config.</span></span><span class="sig-name descname"><span class="pre">init_configs</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">which_entry</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">object</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/config/config.html#init_configs"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.config.init_configs" title="Link to this definition">¶</a></dt>
@@ -178,14 +345,15 @@
 </dl>
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.analysis.html" class="btn btn-neutral float-left" title="data_juicer.analysis" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.format.html" class="btn btn-neutral float-right" title="data_juicer.format" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.analysis.html" class="btn btn-neutral float-left" title="data_juicer.analysis package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.format.html" class="btn btn-neutral float-right" title="data_juicer.format package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.core.html b/data_juicer.core.html
index 33ebdb901..33ed4e429 100644
--- a/data_juicer.core.html
+++ b/data_juicer.core.html
@@ -6,18 +6,18 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.core &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.core package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops" href="data_juicer.ops.html" />
+    <link rel="next" title="data_juicer.ops package" href="data_juicer.ops.html" />
     <link rel="prev" title="Welcome to data-juicer’s documentation!" href="index.html" /> 
 </head>
 
@@ -42,25 +42,29 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.core</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.Adapter"><code class="docutils literal notranslate"><span class="pre">Adapter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.Analyzer"><code class="docutils literal notranslate"><span class="pre">Analyzer</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.NestedDataset"><code class="docutils literal notranslate"><span class="pre">NestedDataset</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.Executor"><code class="docutils literal notranslate"><span class="pre">Executor</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.Exporter"><code class="docutils literal notranslate"><span class="pre">Exporter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.Monitor"><code class="docutils literal notranslate"><span class="pre">Monitor</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.core.Tracer"><code class="docutils literal notranslate"><span class="pre">Tracer</span></code></a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.core package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.adapter">data_juicer.core.adapter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.analyzer">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.data">data_juicer.core.data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.executor">data_juicer.core.executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.exporter">data_juicer.core.exporter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.monitor">data_juicer.core.monitor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.ray_data">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.ray_executor">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core.tracer">data_juicer.core.tracer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.core">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -77,7 +81,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.core</li>
+      <li class="breadcrumb-item active">data_juicer.core package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.core.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -87,8 +91,955 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.core">
-<span id="data-juicer-core"></span><h1>data_juicer.core<a class="headerlink" href="#module-data_juicer.core" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-core-package">
+<h1>data_juicer.core package<a class="headerlink" href="#data-juicer-core-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.core.adapter">
+<span id="data-juicer-core-adapter-module"></span><h2>data_juicer.core.adapter module<a class="headerlink" href="#module-data_juicer.core.adapter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.adapter.</span></span><span class="sig-name descname"><span class="pre">Adapter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.MAX_BATCH_SIZE">
+<span class="sig-name descname"><span class="pre">MAX_BATCH_SIZE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">10000</span></em><a class="headerlink" href="#data_juicer.core.adapter.Adapter.MAX_BATCH_SIZE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.execute_and_probe">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">execute_and_probe</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">operators</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.execute_and_probe"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.execute_and_probe" title="Link to this definition">¶</a></dt>
+<dd><p>Process the input dataset and probe related information for each OP in
+the specified operator list.</p>
+<p>For now, we support the following targets to probe:
+“resource”: resource utilization for each OP.
+“speed”: average processing speed for each OP.</p>
+<p>The probe result is a list and each item in the list is the probe
+result for each OP.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.take_batch">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">take_batch</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.take_batch"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.take_batch" title="Link to this definition">¶</a></dt>
+<dd><p>Split the dataset into batches based on configuration and load factor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – The dataset to be split</p></li>
+<li><p><strong>config</strong> – Configuration settings, including batch size</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>An iterator of batches</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.adapt_workloads">
+<span class="sig-name descname"><span class="pre">adapt_workloads</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">operators</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.adapt_workloads"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.adapt_workloads" title="Link to this definition">¶</a></dt>
+<dd><p>Manage the scheduling and load balancing for the dataset processing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – The dataset that needs to be processed</p></li>
+<li><p><strong>operators</strong> – Operators in the data recipe</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.probe_small_batch">
+<span class="sig-name descname"><span class="pre">probe_small_batch</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">operators</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.probe_small_batch"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.probe_small_batch" title="Link to this definition">¶</a></dt>
+<dd><p>Perform small batch pre-execution to probe available resources,
+current load and estimated OP speed, returning load factors and speed
+ranks for each OP.</p>
+<p>Notice: the probe should be run with cache enabled to avoid removing
+the cache files of the input dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – The dataset to pre-execute small batch on</p></li>
+<li><p><strong>operators</strong> – The OP list to be pre-execution and probe</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A list of probe results for each OP and the length of data
+batch to probe.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.batch_size_strategy">
+<span class="sig-name descname"><span class="pre">batch_size_strategy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_analysis_res</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">base_bs</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">util_th</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.9</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.batch_size_strategy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.batch_size_strategy" title="Link to this definition">¶</a></dt>
+<dd><p>Decide the batch size for each op according to their workload analysis
+result and expected utilization threshold. We need to guarantee that
+the resource utilization won’t exceed the threshold. Now we only
+consider the buckets effect, which means the max batch size is decided
+by the max utilization of all types of resources except GPU util
+(decided by num_proc).</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.analyze_small_batch">
+<span class="sig-name descname"><span class="pre">analyze_small_batch</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">current_state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.analyze_small_batch"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.analyze_small_batch" title="Link to this definition">¶</a></dt>
+<dd><p>Perform small batch analysis to probe the current OP-wise stats/meta
+distributions. The analyzed results will be stored in the directory
+<cite>{work_dir}/insight_mining</cite>.</p>
+<p>Notice: the probe should be run with cache enabled to avoid removing
+the cache files of the input dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – The dataset to analyze small batch on</p></li>
+<li><p><strong>current_state</strong> – A string to indicate the current state of the
+input dataset. It usually consists of a number of the index of the
+OP processed just now and the OP name, e.g. “1_text_length_filter”.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.adapter.Adapter.insight_mining">
+<span class="sig-name descname"><span class="pre">insight_mining</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pval_th</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.05</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter.insight_mining"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.adapter.Adapter.insight_mining" title="Link to this definition">¶</a></dt>
+<dd><p>Mining the insights from the OP-wise analysis results. For now, we use
+T-Test to check the significance of stats/meta changes before and after
+each OP processing. If the p-value is less than a given threshold
+(usually 0.05), we think the stats/meta changes are significant. The
+insight mining results will be stored in the file
+<cite>{work_dir}/insight_mining/insight_mining.json</cite>.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>pval_th</strong> – the threshold of p-value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.analyzer">
+<span id="data-juicer-core-analyzer-module"></span><h2>data_juicer.core.analyzer module<a class="headerlink" href="#module-data_juicer.core.analyzer" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.analyzer.Analyzer">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.analyzer.</span></span><span class="sig-name descname"><span class="pre">Analyzer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyzer.html#Analyzer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyzer.Analyzer" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This Analyzer class is used to analyze a specific dataset.</p>
+<p>It will compute stats for all filter ops in the config file, apply
+multiple analysis (e.g. OverallAnalysis, ColumnWiseAnalysis, etc.)
+on these stats, and generate the analysis results (stats tables,
+distribution figures, etc.) to help users understand the input
+dataset better.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.analyzer.Analyzer.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyzer.html#Analyzer.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyzer.Analyzer.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>cfg</strong> – optional jsonargparse Namespace dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.analyzer.Analyzer.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.data.NestedDataset" title="data_juicer.core.data.NestedDataset"><span class="pre">NestedDataset</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_return</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyzer.html#Analyzer.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.analyzer.Analyzer.run" title="Link to this definition">¶</a></dt>
+<dd><p>Running the dataset analysis pipeline.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – a Dataset object to be analyzed.</p></li>
+<li><p><strong>load_data_np</strong> – number of workers when loading the dataset.</p></li>
+<li><p><strong>skip_export</strong> – whether export the results into disk</p></li>
+<li><p><strong>skip_return</strong> – skip return for API called.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>analyzed dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.data">
+<span id="data-juicer-core-data-module"></span><h2>data_juicer.core.data module<a class="headerlink" href="#module-data_juicer.core.data" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.data.DJDataset">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">DJDataset</span></span><a class="reference internal" href="_modules/data_juicer/core/data.html#DJDataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.DJDataset" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ABC</span></code></p>
+<p>Base dataset of DJ</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.DJDataset.process">
+<em class="property"><span class="pre">abstract</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">operators</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">checkpointer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><span class="pre">DJDataset</span></a></span></span><a class="reference internal" href="_modules/data_juicer/core/data.html#DJDataset.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.DJDataset.process" title="Link to this definition">¶</a></dt>
+<dd><p>process a list of operators on the dataset.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.data.wrap_func_with_nested_access">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">wrap_func_with_nested_access</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">f</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#wrap_func_with_nested_access"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.wrap_func_with_nested_access" title="Link to this definition">¶</a></dt>
+<dd><p>Before conducting actual function <cite>f</cite>, wrap its args and kargs into nested
+ones.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>f</strong> – function to be wrapped.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>wrapped function</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.data.nested_obj_factory">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">nested_obj_factory</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">obj</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#nested_obj_factory"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.nested_obj_factory" title="Link to this definition">¶</a></dt>
+<dd><p>Use nested classes to wrap the input object.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>obj</strong> – object to be nested.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>nested object</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedQueryDict">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedQueryDict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedQueryDict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedQueryDict" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">dict</span></code></p>
+<p>Enhanced dict for better usability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedQueryDict.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedQueryDict.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedQueryDict.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedDatasetDict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">DatasetDict</span></code></p>
+<p>Enhanced HuggingFace-DatasetDict for better usability and efficiency.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDatasetDict.map">
+<span class="sig-name descname"><span class="pre">map</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">args</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDatasetDict.map"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDatasetDict.map" title="Link to this definition">¶</a></dt>
+<dd><p>Override the map func, which is called by most common operations,
+such that the processed samples can be accessed by nested manner.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">NestedDataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Dataset</span></code>, <a class="reference internal" href="#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><code class="xref py py-class docutils literal notranslate"><span class="pre">DJDataset</span></code></a></p>
+<p>Enhanced HuggingFace-Dataset for better usability and efficiency.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">operators</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">work_dir</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">checkpointer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">adapter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">open_monitor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.process" title="Link to this definition">¶</a></dt>
+<dd><p>process a list of operators on the dataset.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.update_args">
+<span class="sig-name descname"><span class="pre">update_args</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">kargs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">is_filter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.update_args"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.update_args" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.map">
+<span class="sig-name descname"><span class="pre">map</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.map"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.map" title="Link to this definition">¶</a></dt>
+<dd><p>Override the map func, which is called by most common operations,
+such that the processed samples can be accessed by nested manner.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.filter">
+<span class="sig-name descname"><span class="pre">filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.filter" title="Link to this definition">¶</a></dt>
+<dd><p>Override the filter func, which is called by most common operations,
+such that the processed samples can be accessed by nested manner.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.select">
+<span class="sig-name descname"><span class="pre">select</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.select"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.select" title="Link to this definition">¶</a></dt>
+<dd><p>Override the select func, such that selected samples can be accessed
+by nested manner.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.from_dict">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">from_dict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.from_dict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.from_dict" title="Link to this definition">¶</a></dt>
+<dd><p>Override the from_dict func, which is called by most from_xx
+constructors, such that the constructed dataset object is
+NestedDataset.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.add_column">
+<span class="sig-name descname"><span class="pre">add_column</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.add_column"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.add_column" title="Link to this definition">¶</a></dt>
+<dd><p>Override the add column func, such that the processed samples
+can be accessed by nested manner.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.select_columns">
+<span class="sig-name descname"><span class="pre">select_columns</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.select_columns"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.select_columns" title="Link to this definition">¶</a></dt>
+<dd><p>Override the select columns func, such that the processed samples
+can be accessed by nested manner.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.remove_columns">
+<span class="sig-name descname"><span class="pre">remove_columns</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.remove_columns"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.remove_columns" title="Link to this definition">¶</a></dt>
+<dd><p>Override the remove columns func, such that the processed samples
+can be accessed by nested manner.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.cleanup_cache_files">
+<span class="sig-name descname"><span class="pre">cleanup_cache_files</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.cleanup_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.cleanup_cache_files" title="Link to this definition">¶</a></dt>
+<dd><p>Override the cleanup_cache_files func, clear raw and compressed
+cache files.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.data.NestedDataset.load_from_disk">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">load_from_disk</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset.load_from_disk"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.NestedDataset.load_from_disk" title="Link to this definition">¶</a></dt>
+<dd><p>Loads a dataset that was previously saved using [<cite>save_to_disk</cite>] from a dataset directory, or from a
+filesystem using any implementation of <cite>fsspec.spec.AbstractFileSystem</cite>.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> (<cite>path-like</cite>) – Path (e.g. <cite>“dataset/train”</cite>) or remote URI (e.g. <cite>“s3//my-bucket/dataset/train”</cite>)
+of the dataset directory where the dataset will be loaded from.</p></li>
+<li><p><strong>keep_in_memory</strong> (<cite>bool</cite>, defaults to <cite>None</cite>) – Whether to copy the dataset in-memory. If <cite>None</cite>, the
+dataset will not be copied in-memory unless explicitly enabled by setting
+<cite>datasets.config.IN_MEMORY_MAX_SIZE</cite> to nonzero. See more details in the
+[improve performance](../cache#improve-performance) section.</p></li>
+<li><p><strong>storage_options</strong> (<cite>dict</cite>, <em>optional</em>) – <p>Key/value pairs to be passed on to the file-system backend, if any.</p>
+<p>&lt;Added version=”2.8.0”/&gt;</p>
+</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p><ul class="simple">
+<li><p>If <cite>dataset_path</cite> is a path of a dataset directory, the dataset requested.</p></li>
+<li><p>If <cite>dataset_path</cite> is a path of a dataset dict directory, a <cite>datasets.DatasetDict</cite> with each split.</p></li>
+</ul>
+</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>[<cite>Dataset</cite>] or [<cite>DatasetDict</cite>]</p>
+</dd>
+</dl>
+<p>Example:</p>
+<p><code class="docutils literal notranslate"><span class="pre">`py</span>
+<span class="pre">&gt;&gt;&gt;</span> <span class="pre">ds</span> <span class="pre">=</span> <span class="pre">load_from_disk(&quot;path/to/dataset/directory&quot;)</span>
+<span class="pre">`</span></code></p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.data.nested_query">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">nested_query</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">root_obj</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="#data_juicer.core.data.NestedDatasetDict" title="data_juicer.core.data.NestedDatasetDict"><span class="pre">NestedDatasetDict</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.data.NestedDataset" title="data_juicer.core.data.NestedDataset"><span class="pre">NestedDataset</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.data.NestedQueryDict" title="data_juicer.core.data.NestedQueryDict"><span class="pre">NestedQueryDict</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#nested_query"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.nested_query" title="Link to this definition">¶</a></dt>
+<dd><p>Find item from a given object, by first checking flatten layer, then
+checking nested layers.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>root_obj</strong> – the object</p></li>
+<li><p><strong>key</strong> – the stored item to be queried, e.g., “meta” or
+“meta.date”</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.data.add_same_content_to_new_column">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.data.</span></span><span class="sig-name descname"><span class="pre">add_same_content_to_new_column</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_column_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">initial_value</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#add_same_content_to_new_column"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.data.add_same_content_to_new_column" title="Link to this definition">¶</a></dt>
+<dd><p>A helper function to speed up add_column function. Apply map on this
+function in parallel instead of using add_column.
+:param sample: a single sample to add this new column/field.
+:param new_column_name: the name of this new column/field.
+:param initial_value: the initial value of this new column/field.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.executor">
+<span id="data-juicer-core-executor-module"></span><h2>data_juicer.core.executor module<a class="headerlink" href="#module-data_juicer.core.executor" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.executor.Executor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.executor.</span></span><span class="sig-name descname"><span class="pre">Executor</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This Executor class is used to process a specific dataset.</p>
+<p>It will load the dataset and unify the format, then apply all the
+ops in the config file in order and generate a processed dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.executor.Executor.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Namespace</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>cfg</strong> – optional jsonargparse Namespace.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.executor.Executor.sample_data">
+<span class="sig-name descname"><span class="pre">sample_data</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_to_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_algo</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor.sample_data"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor.sample_data" title="Link to this definition">¶</a></dt>
+<dd><p>Sample a subset from the given dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_to_sample</strong> – Dataset to sample from. If None, will use
+the formatter linked by the executor. Default is None.</p></li>
+<li><p><strong>load_data_np</strong> – number of workers when loading the dataset.</p></li>
+<li><p><strong>sample_ratio</strong> – The ratio of the sample size to the original
+dataset size. Default is 1.0 (no sampling).</p></li>
+<li><p><strong>sample_algo</strong> – Sampling algorithm to use. Options are “uniform”,
+“frequency_specified_field_selector”, or
+“topk_specified_field_selector”.
+Default is “uniform”.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A sampled Dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.executor.Executor.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_return</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/executor.html#Executor.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.executor.Executor.run" title="Link to this definition">¶</a></dt>
+<dd><p>Running the dataset process pipeline.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>load_data_np</strong> – number of workers when loading the dataset.</p></li>
+<li><p><strong>skip_return</strong> – skip return for API called.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.exporter">
+<span id="data-juicer-core-exporter-module"></span><h2>data_juicer.core.exporter module<a class="headerlink" href="#module-data_juicer.core.exporter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.exporter.</span></span><span class="sig-name descname"><span class="pre">Exporter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_shard_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_in_parallel</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_stats_in_res_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_hashes_in_res_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_stats</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>The Exporter class is used to export a dataset to files of specific
+format.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.KiB">
+<span class="sig-name descname"><span class="pre">KiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1024</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.KiB" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.MiB">
+<span class="sig-name descname"><span class="pre">MiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1048576</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.MiB" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.GiB">
+<span class="sig-name descname"><span class="pre">GiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1073741824</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.GiB" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.TiB">
+<span class="sig-name descname"><span class="pre">TiB</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">1099511627776</span></em><a class="headerlink" href="#data_juicer.core.exporter.Exporter.TiB" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_shard_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_in_parallel</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_stats_in_res_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_hashes_in_res_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_stats</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>export_path</strong> – the path to export datasets.</p></li>
+<li><p><strong>export_shard_size</strong> – the size of each shard of exported
+dataset. In default, it’s 0, which means export the dataset
+to a single file.</p></li>
+<li><p><strong>num_proc</strong> – number of process to export the dataset.</p></li>
+<li><p><strong>export_ds</strong> – whether to export the dataset contents.</p></li>
+<li><p><strong>keep_stats_in_res_ds</strong> – whether to keep stats in the result
+dataset.</p></li>
+<li><p><strong>keep_hashes_in_res_ds</strong> – whether to keep hashes in the result
+dataset.</p></li>
+<li><p><strong>export_stats</strong> – whether to export the stats of dataset.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.export">
+<span class="sig-name descname"><span class="pre">export</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.export"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.export" title="Link to this definition">¶</a></dt>
+<dd><p>Export method for a dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – the dataset to export.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.export_compute_stats">
+<span class="sig-name descname"><span class="pre">export_compute_stats</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.export_compute_stats"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.export_compute_stats" title="Link to this definition">¶</a></dt>
+<dd><p>Export method for saving compute status in filters</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.to_jsonl">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">to_jsonl</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.to_jsonl"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.to_jsonl" title="Link to this definition">¶</a></dt>
+<dd><p>Export method for jsonl target files.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to export.</p></li>
+<li><p><strong>export_path</strong> – the path to store the exported dataset.</p></li>
+<li><p><strong>num_proc</strong> – the number of processes used to export the dataset.</p></li>
+<li><p><strong>kwargs</strong> – extra arguments.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.to_json">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">to_json</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.to_json"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.to_json" title="Link to this definition">¶</a></dt>
+<dd><p>Export method for json target files.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to export.</p></li>
+<li><p><strong>export_path</strong> – the path to store the exported dataset.</p></li>
+<li><p><strong>num_proc</strong> – the number of processes used to export the dataset.</p></li>
+<li><p><strong>kwargs</strong> – extra arguments.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.exporter.Exporter.to_parquet">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">to_parquet</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">export_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/exporter.html#Exporter.to_parquet"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.exporter.Exporter.to_parquet" title="Link to this definition">¶</a></dt>
+<dd><p>Export method for parquet target files.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – the dataset to export.</p></li>
+<li><p><strong>export_path</strong> – the path to store the exported dataset.</p></li>
+<li><p><strong>kwargs</strong> – extra arguments.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.monitor">
+<span id="data-juicer-core-monitor-module"></span><h2>data_juicer.core.monitor module<a class="headerlink" href="#module-data_juicer.core.monitor" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.resource_monitor">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.monitor.</span></span><span class="sig-name descname"><span class="pre">resource_monitor</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mdict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">interval</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#resource_monitor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.resource_monitor" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.monitor.</span></span><span class="sig-name descname"><span class="pre">Monitor</span></span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Monitor resource utilization and other information during the data
+processing.</p>
+<p>Resource utilization dict: (for each func)
+‘’’python
+{</p>
+<blockquote>
+<div><p>‘time’: 10,
+‘sampling interval’: 0.5,
+‘resource’: [</p>
+<blockquote>
+<div><dl class="simple">
+<dt>{</dt><dd><p>‘timestamp’: xxx,
+‘CPU count’: xxx,
+‘GPU free mem.’: xxx.
+…</p>
+</dd>
+</dl>
+<p>},
+{</p>
+<blockquote>
+<div><p>‘timestamp’: xxx,
+‘CPU count’: xxx,
+‘GPU free mem.’: xxx,
+…</p>
+</div></blockquote>
+<p>},</p>
+</div></blockquote>
+<p>]</p>
+</div></blockquote>
+<section id="id1">
+<h3>}<a class="headerlink" href="#id1" title="Link to this heading">¶</a></h3>
+<p>Based on the structure above, the resource utilization analysis result will
+add several extra fields on the first level:
+‘’’python
+{</p>
+<blockquote>
+<div><p>‘time’: 10,
+‘sampling interval’: 0.5,
+‘resource’: […],
+‘resource_analysis’: {</p>
+<blockquote>
+<div><dl class="simple">
+<dt>‘GPU free mem.’: {</dt><dd><p>‘max’: xxx,
+‘min’: xxx,
+‘avg’: xxx,</p>
+</dd>
+</dl>
+</div></blockquote>
+<p>}</p>
+</div></blockquote>
+</section>
+<section id="id2">
+<h3>}<a class="headerlink" href="#id2" title="Link to this heading">¶</a></h3>
+<p>Only those fields in DYNAMIC_FIELDS will be analyzed.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS">
+<span class="sig-name descname"><span class="pre">DYNAMIC_FIELDS</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'Available</span> <span class="pre">mem.',</span> <span class="pre">'CPU</span> <span class="pre">util.',</span> <span class="pre">'Free</span> <span class="pre">mem.',</span> <span class="pre">'GPU</span> <span class="pre">free</span> <span class="pre">mem.',</span> <span class="pre">'GPU</span> <span class="pre">used</span> <span class="pre">mem.',</span> <span class="pre">'GPU</span> <span class="pre">util.',</span> <span class="pre">'Mem.</span> <span class="pre">util.',</span> <span class="pre">'Used</span> <span class="pre">mem.'}</span></em><a class="headerlink" href="#data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.monitor_all_resources">
+<span class="sig-name descname"><span class="pre">monitor_all_resources</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.monitor_all_resources"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.monitor_all_resources" title="Link to this definition">¶</a></dt>
+<dd><p>Detect the resource utilization of all distributed nodes.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.monitor_current_resources">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">monitor_current_resources</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.monitor_current_resources"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.monitor_current_resources" title="Link to this definition">¶</a></dt>
+<dd><p>Detect the resource utilization of the current environment/machine.
+All data of “util.” is ratios in the range of [0.0, 1.0]. All data of
+“mem.” is in MB.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.draw_resource_util_graph">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">draw_resource_util_graph</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">resource_util_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">store_dir</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.draw_resource_util_graph"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.draw_resource_util_graph" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.analyze_resource_util_list">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">analyze_resource_util_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">resource_util_list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.analyze_resource_util_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.analyze_resource_util_list" title="Link to this definition">¶</a></dt>
+<dd><p>Analyze the resource utilization for a given resource util list.
+Compute {‘max’, ‘min’, ‘avg’} of resource metrics for each dict item.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.analyze_single_resource_util">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">analyze_single_resource_util</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">resource_util_dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.analyze_single_resource_util"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.analyze_single_resource_util" title="Link to this definition">¶</a></dt>
+<dd><p>Analyze the resource utilization for a single resource util dict.
+Compute {‘max’, ‘min’, ‘avg’} of each resource metrics.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.monitor.Monitor.monitor_func">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">monitor_func</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">func</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">args</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_interval</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/monitor.html#Monitor.monitor_func"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.monitor.Monitor.monitor_func" title="Link to this definition">¶</a></dt>
+<dd><p>Process the input dataset and probe related information for each OP in
+the specified operator list.</p>
+<p>For now, we support the following targets to probe:
+“resource”: resource utilization for each OP.
+“speed”: average processing speed for each OP.</p>
+<p>The probe result is a list and each item in the list is the probe
+result for each OP.</p>
+</dd></dl>
+
+</section>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.ray_data">
+<span id="data-juicer-core-ray-data-module"></span><h2>data_juicer.core.ray_data module<a class="headerlink" href="#module-data_juicer.core.ray_data" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.get_abs_path">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">get_abs_path</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset_dir</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#get_abs_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.get_abs_path" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.convert_to_absolute_paths">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">convert_to_absolute_paths</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">path_keys</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#convert_to_absolute_paths"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.convert_to_absolute_paths" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.set_dataset_to_absolute_path">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">set_dataset_to_absolute_path</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#set_dataset_to_absolute_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.set_dataset_to_absolute_path" title="Link to this definition">¶</a></dt>
+<dd><p>Set all the path in input data to absolute path.
+Checks dataset_dir and project_dir for valid paths.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.preprocess_dataset">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">preprocess_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cfg</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#preprocess_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.preprocess_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.get_num_gpus">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">get_num_gpus</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">op_proc</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#get_num_gpus"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.get_num_gpus" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.filter_batch">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">filter_batch</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">batch</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_func</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#filter_batch"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.filter_batch" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.RayDataset">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">RayDataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#RayDataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.RayDataset" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><code class="xref py py-class docutils literal notranslate"><span class="pre">DJDataset</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.RayDataset.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#RayDataset.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.RayDataset.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.RayDataset.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">operators</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">checkpointer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><span class="pre">DJDataset</span></a></span></span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#RayDataset.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.RayDataset.process" title="Link to this definition">¶</a></dt>
+<dd><p>process a list of operators on the dataset.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.RayDataset.read_json">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">read_json</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.core.ray_data.RayDataset" title="data_juicer.core.ray_data.RayDataset"><span class="pre">RayDataset</span></a></span></span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#RayDataset.read_json"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.RayDataset.read_json" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.JSONStreamDatasource">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">JSONStreamDatasource</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">arrow_json_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">file_based_datasource_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#JSONStreamDatasource"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.JSONStreamDatasource" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">JSONDatasource</span></code></p>
+<p>A temp Datasource for reading json stream.</p>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>Depends on a customized <cite>pyarrow</cite> with <cite>open_json</cite> method.</p>
+</div>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.core.ray_data.read_json_stream">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_data.</span></span><span class="sig-name descname"><span class="pre">read_json_stream</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filesystem</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">FileSystem</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">parallelism</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ray_remote_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">arrow_open_stream_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Any</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">meta_provider</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partition_filter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">partitioning</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">Partitioning(style='hive',</span> <span class="pre">base_dir='',</span> <span class="pre">field_names=None,</span> <span class="pre">filesystem=None)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">include_paths</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_missing_paths</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">shuffle</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Literal</span><span class="p"><span class="pre">[</span></span><span class="s"><span class="pre">'files'</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">file_extensions</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['json',</span> <span class="pre">'jsonl']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">concurrency</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">override_num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">arrow_json_args</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/core/ray_data.html#read_json_stream"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_data.read_json_stream" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.core.ray_executor">
+<span id="data-juicer-core-ray-executor-module"></span><h2>data_juicer.core.ray_executor module<a class="headerlink" href="#module-data_juicer.core.ray_executor" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.ray_executor.RayExecutor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.ray_executor.</span></span><span class="sig-name descname"><span class="pre">RayExecutor</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_executor.html#RayExecutor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_executor.RayExecutor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Executor based on Ray.</p>
+<p>Run Data-Juicer data processing in a distributed cluster.</p>
+<blockquote>
+<div><ol class="arabic simple">
+<li><p>Support Filter, Mapper and Exact Deduplicator operators for now.</p></li>
+<li><p>Only support loading <cite>.json</cite> files.</p></li>
+<li><p>Advanced functions such as checkpoint, tracer are not supported.</p></li>
+</ol>
+</div></blockquote>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.ray_executor.RayExecutor.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_executor.html#RayExecutor.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_executor.RayExecutor.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>cfg</strong> – optional config dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.ray_executor.RayExecutor.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/ray_executor.html#RayExecutor.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.ray_executor.RayExecutor.run" title="Link to this definition">¶</a></dt>
+<dd><p>Running the dataset process pipeline.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>load_data_np</strong> – number of workers when loading the dataset.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core.tracer">
+<span id="data-juicer-core-tracer-module"></span><h2>data_juicer.core.tracer module<a class="headerlink" href="#module-data_juicer.core.tracer" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.tracer.</span></span><span class="sig-name descname"><span class="pre">Tracer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">work_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>The tracer to trace the sample changes before and after an operator
+process.</p>
+<p>The comparison results will be stored in the work directory.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">work_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">10</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>work_dir</strong> – the work directory to store the comparison
+results</p></li>
+<li><p><strong>show_num</strong> – the maximum number of samples to show in the
+comparison result files.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_mapper">
+<span class="sig-name descname"><span class="pre">trace_mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_mapper" title="Link to this definition">¶</a></dt>
+<dd><p>Compare datasets before and after a Mapper.</p>
+<p>This will mainly show the different sample pairs due to the
+modification by the Mapper</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>op_name</strong> – the op name of mapper</p></li>
+<li><p><strong>previous_ds</strong> – dataset before the mapper process</p></li>
+<li><p><strong>processed_ds</strong> – dataset processed by the mapper</p></li>
+<li><p><strong>text_key</strong> – which text_key to trace</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_batch_mapper">
+<span class="sig-name descname"><span class="pre">trace_batch_mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_batch_mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_batch_mapper" title="Link to this definition">¶</a></dt>
+<dd><p>Compare datasets before and after a BatchMapper.</p>
+<p>This will mainly show the new samples augmented by the BatchMapper</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>op_name</strong> – the op name of mapper</p></li>
+<li><p><strong>previous_ds</strong> – dataset before the mapper process</p></li>
+<li><p><strong>processed_ds</strong> – dataset processed by the mapper</p></li>
+<li><p><strong>text_key</strong> – which text_key to trace</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_filter">
+<span class="sig-name descname"><span class="pre">trace_filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">previous_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processed_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_filter" title="Link to this definition">¶</a></dt>
+<dd><p>Compare datasets before and after a Filter.</p>
+<p>This will mainly show the filtered samples by the Filter</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>op_name</strong> – the op name of filter</p></li>
+<li><p><strong>previous_ds</strong> – dataset before the filter process</p></li>
+<li><p><strong>processed_ds</strong> – dataset processed by the filter</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.core.tracer.Tracer.trace_deduplicator">
+<span class="sig-name descname"><span class="pre">trace_deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dup_pairs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/tracer.html#Tracer.trace_deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.tracer.Tracer.trace_deduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Compare datasets before and after a Deduplicator.</p>
+<p>This will mainly show the near-duplicate sample pairs extracted
+by the Deduplicator. Different from the other two trace methods,
+the trace process for deduplicator is embedded into the process
+method of deduplicator, but the other two trace methods are
+independent of the process method of mapper and filter operators</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>op_name</strong> – the op name of deduplicator</p></li>
+<li><p><strong>dup_pairs</strong> – duplicate sample pairs obtained from
+deduplicator</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.core">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.core" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.core.Adapter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.</span></span><span class="sig-name descname"><span class="pre">Adapter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/adapter.html#Adapter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.Adapter" title="Link to this definition">¶</a></dt>
@@ -240,7 +1191,7 @@
 
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.Analyzer.run">
-<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.NestedDataset" title="data_juicer.core.data.NestedDataset"><span class="pre">NestedDataset</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_return</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyzer.html#Analyzer.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.Analyzer.run" title="Link to this definition">¶</a></dt>
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><a class="reference internal" href="#data_juicer.core.data.NestedDataset" title="data_juicer.core.data.NestedDataset"><span class="pre">NestedDataset</span></a><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">load_data_np</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_export</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_return</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/analyzer.html#Analyzer.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.Analyzer.run" title="Link to this definition">¶</a></dt>
 <dd><p>Running the dataset analysis pipeline.</p>
 <dl class="field-list simple">
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
@@ -262,7 +1213,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.core.NestedDataset">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.core.</span></span><span class="sig-name descname"><span class="pre">NestedDataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/core/data.html#NestedDataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.core.NestedDataset" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Dataset</span></code>, <code class="xref py py-class docutils literal notranslate"><span class="pre">DJDataset</span></code></p>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Dataset</span></code>, <a class="reference internal" href="#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><code class="xref py py-class docutils literal notranslate"><span class="pre">DJDataset</span></code></a></p>
 <p>Enhanced HuggingFace-Dataset for better usability and efficiency.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.core.NestedDataset.__init__">
@@ -596,8 +1547,8 @@
 </div></blockquote>
 <p>]</p>
 </div></blockquote>
-<section id="id1">
-<h2>}<a class="headerlink" href="#id1" title="Link to this heading">¶</a></h2>
+<section id="id3">
+<h3>}<a class="headerlink" href="#id3" title="Link to this heading">¶</a></h3>
 <p>Based on the structure above, the resource utilization analysis result will
 add several extra fields on the first level:
 ‘’’python
@@ -618,8 +1569,8 @@ <h2>}<a class="headerlink" href="#id1" title="Link to this heading">¶</a></h2>
 <p>}</p>
 </div></blockquote>
 </section>
-<section id="id2">
-<h2>}<a class="headerlink" href="#id2" title="Link to this heading">¶</a></h2>
+<section id="id4">
+<h3>}<a class="headerlink" href="#id4" title="Link to this heading">¶</a></h3>
 <p>Only those fields in DYNAMIC_FIELDS will be analyzed.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.core.Monitor.DYNAMIC_FIELDS">
@@ -787,6 +1738,7 @@ <h2>}<a class="headerlink" href="#id2" title="Link to this heading">¶</a></h2>
 
 </dd></dl>
 
+</section>
 </section>
 
 
@@ -794,7 +1746,7 @@ <h2>}<a class="headerlink" href="#id2" title="Link to this heading">¶</a></h2>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
         <a href="index.html" class="btn btn-neutral float-left" title="Welcome to data-juicer’s documentation!" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.html" class="btn btn-neutral float-right" title="data_juicer.ops" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.html" class="btn btn-neutral float-right" title="data_juicer.ops package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.format.html b/data_juicer.format.html
index ede26c42a..8e45ea084 100644
--- a/data_juicer.format.html
+++ b/data_juicer.format.html
@@ -6,18 +6,18 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.format &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.format package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="prev" title="data_juicer.config" href="data_juicer.config.html" /> 
+    <link rel="prev" title="data_juicer.config package" href="data_juicer.config.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -41,27 +41,27 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.format</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.format.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.format package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.load">data_juicer.format.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.format">Module contents</a></li>
 </ul>
 </li>
 </ul>
@@ -80,7 +80,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.format</li>
+      <li class="breadcrumb-item active">data_juicer.format package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.format.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -90,11 +90,548 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.format">
-<span id="data-juicer-format"></span><h1>data_juicer.format<a class="headerlink" href="#module-data_juicer.format" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-format-package">
+<h1>data_juicer.format package<a class="headerlink" href="#data-juicer-format-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.format.csv_formatter">
+<span id="data-juicer-format-csv-formatter-module"></span><h2>data_juicer.format.csv_formatter module<a class="headerlink" href="#module-data_juicer.format.csv_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.csv_formatter.</span></span><span class="sig-name descname"><span class="pre">CsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format csv-type files.</p>
+<p>Default suffixes is <cite>[‘.csv’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.csv']</span></em><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.csv_formatter.CsvFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.csv_formatter.CsvFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.empty_formatter">
+<span id="data-juicer-format-empty-formatter-module"></span><h2>data_juicer.format.empty_formatter module<a class="headerlink" href="#module-data_juicer.format.empty_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.empty_formatter.</span></span><span class="sig-name descname"><span class="pre">EmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to create empty data.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">[]</span></em><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>length</strong> – The empty dataset length.</p></li>
+<li><p><strong>feature_keys</strong> – feature key name list.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.null_value">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">null_value</span></span><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.null_value" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.EmptyFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.empty_formatter.</span></span><span class="sig-name descname"><span class="pre">RayEmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to create empty data for ray.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">[]</span></em><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>length</strong> – The empty dataset length.</p></li>
+<li><p><strong>feature_keys</strong> – feature key name list.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.null_value">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">null_value</span></span><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.null_value" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.formatter">
+<span id="data-juicer-format-formatter-module"></span><h2>data_juicer.format.formatter module<a class="headerlink" href="#module-data_juicer.format.formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.BaseFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">BaseFormatter</span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#BaseFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.BaseFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Base class to load dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.BaseFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#BaseFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.BaseFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">LocalFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to load a dataset from local files or local
+directory.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – path to a dataset file or a dataset
+directory</p></li>
+<li><p><strong>type</strong> – a packaged dataset module type (json, csv, etc.)</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample
+text.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset
+meta info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.LocalFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.LocalFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a dataset from dataset file or dataset directory, and unify its
+format.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>formatted dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">RemoteFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class is used to load a dataset from repository of huggingface
+hub.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample
+text.</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.RemoteFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.RemoteFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a dataset from HuggingFace, and unify its format.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>formatted dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.add_suffixes">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">add_suffixes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">datasets</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">DatasetDict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#add_suffixes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.add_suffixes" title="Link to this definition">¶</a></dt>
+<dd><p>Add suffix filed to datasets.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>datasets</strong> – a DatasetDict object</p></li>
+<li><p><strong>num_proc</strong> – number of processes to add suffixes</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>datasets with suffix features.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.unify_format">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">unify_format</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'text'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#unify_format"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.unify_format" title="Link to this definition">¶</a></dt>
+<dd><p>Get an unified internal format, conduct the following modifications.</p>
+<ol class="arabic simple">
+<li><p>check keys of dataset</p></li>
+<li><p>filter out those samples with empty or None text</p></li>
+</ol>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>text_keys</strong> – original text key(s) of dataset.</p></li>
+<li><p><strong>num_proc</strong> – number of processes for mapping</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,
+since cfg.text_key may be modified after unifying</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>unified_format_dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.formatter.load_formatter">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.formatter.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.formatter.load_formatter" title="Link to this definition">¶</a></dt>
+<dd><p>Load the appropriate formatter for different types of data formats.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – Path to dataset file or dataset directory</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.
+Default: None</p></li>
+<li><p><strong>suffixes</strong> – the suffix of files that will be read. Default:
+None</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a dataset formatter.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.json_formatter">
+<span id="data-juicer-format-json-formatter-module"></span><h2>data_juicer.format.json_formatter module<a class="headerlink" href="#module-data_juicer.format.json_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.json_formatter.</span></span><span class="sig-name descname"><span class="pre">JsonFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format json-type files.</p>
+<p>Default suffixes is <cite>[‘.json’, ‘.jsonl’, ‘.jsonl.zst’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.json',</span> <span class="pre">'.jsonl',</span> <span class="pre">'.jsonl.zst']</span></em><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.json_formatter.JsonFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.json_formatter.JsonFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.load">
+<span id="data-juicer-format-load-module"></span><h2>data_juicer.format.load module<a class="headerlink" href="#module-data_juicer.format.load" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.load.load_formatter">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.load.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">generated_dataset_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load.load_formatter" title="Link to this definition">¶</a></dt>
+<dd><p>Load mixture formatter for multiple different data formats with an optional
+weight(default 1.0) according to their formats.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – path to a dataset file or a dataset directory</p></li>
+<li><p><strong>generated_dataset_config</strong> – Configuration used to create a dataset.
+The dataset will be created from this configuration if provided.
+It must contain the <cite>type</cite> field to specify the dataset name.</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.
+Default: None</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset meta
+info</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a dataset formatter.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.mixture_formatter">
+<span id="data-juicer-format-mixture-formatter-module"></span><h2>data_juicer.format.mixture_formatter module<a class="headerlink" href="#module-data_juicer.format.mixture_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.mixture_formatter.</span></span><span class="sig-name descname"><span class="pre">MixtureFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
+<p>The class mixes multiple datasets by randomly selecting samples from
+every dataset and merging them, and then exports the merged datasset as a
+new mixed dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset dir or a list
+of them, optional weights, default 1.0 e.g. <cite>&lt;w1&gt; ds.jsonl
+&lt;w2&gt; ds_dir &lt;w3&gt; ds_file.json</cite></p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>text_keys</strong> – key names of field that stores sample text.</p></li>
+<li><p><strong>add_suffix</strong> – whether to add the file suffix to dataset
+meta info</p></li>
+<li><p><strong>max_samples</strong> – max samples number of mixed dataset.</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.random_sample">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">random_sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sample_number</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.random_sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample" title="Link to this definition">¶</a></dt>
+<dd><p>Randomly sample a subset from a dataset with weight or number,
+if sample number is bigger than 0, we will use sample
+number instead of weight.
+:param dataset: a HuggingFace dataset
+:param weight: sample ratio of dataset
+:param sample_number: sample number of dataset
+:param seed: random sample seed, if None, 42 as default
+:return: a subset of dataset</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a mixed dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>mixed dataset</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.parquet_formatter">
+<span id="data-juicer-format-parquet-formatter-module"></span><h2>data_juicer.format.parquet_formatter module<a class="headerlink" href="#module-data_juicer.format.parquet_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.parquet_formatter.</span></span><span class="sig-name descname"><span class="pre">ParquetFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format parquet-type files.</p>
+<p>Default suffixes is <cite>[‘.parquet’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.parquet']</span></em><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.parquet_formatter.ParquetFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.parquet_formatter.ParquetFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.text_formatter">
+<span id="data-juicer-format-text-formatter-module"></span><h2>data_juicer.format.text_formatter module<a class="headerlink" href="#module-data_juicer.format.text_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.extract_txt_from_docx">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">extract_txt_from_docx</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tgt_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#extract_txt_from_docx"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.extract_txt_from_docx" title="Link to this definition">¶</a></dt>
+<dd><p>Extract text from a docx file and save to target path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>fn</strong> – path to input pdf file</p></li>
+<li><p><strong>tgt_path</strong> – path to save text file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.extract_txt_from_pdf">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">extract_txt_from_pdf</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fn</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tgt_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#extract_txt_from_pdf"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.extract_txt_from_pdf" title="Link to this definition">¶</a></dt>
+<dd><p>Extract text from a pdf file and save to target path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>fn</strong> – path to input pdf file</p></li>
+<li><p><strong>tgt_path</strong> – path to save text file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.text_formatter.</span></span><span class="sig-name descname"><span class="pre">TextFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format text-type files.</p>
+<p>e.g. <cite>[‘.txt’, ‘.pdf’, ‘.cpp’, ‘.docx’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.docx',</span> <span class="pre">'.pdf',</span> <span class="pre">'.txt',</span> <span class="pre">'.md',</span> <span class="pre">'.tex',</span> <span class="pre">'.asm',</span> <span class="pre">'.bat',</span> <span class="pre">'.cmd',</span> <span class="pre">'.c',</span> <span class="pre">'.h',</span> <span class="pre">'.cs',</span> <span class="pre">'.cpp',</span> <span class="pre">'.hpp',</span> <span class="pre">'.c++',</span> <span class="pre">'.h++',</span> <span class="pre">'.cc',</span> <span class="pre">'.hh',</span> <span class="pre">'.C',</span> <span class="pre">'.H',</span> <span class="pre">'.cmake',</span> <span class="pre">'.css',</span> <span class="pre">'.dockerfile',</span> <span class="pre">'.f90',</span> <span class="pre">'.f',</span> <span class="pre">'.f03',</span> <span class="pre">'.f08',</span> <span class="pre">'.f77',</span> <span class="pre">'.f95',</span> <span class="pre">'.for',</span> <span class="pre">'.fpp',</span> <span class="pre">'.go',</span> <span class="pre">'.hs',</span> <span class="pre">'.html',</span> <span class="pre">'.java',</span> <span class="pre">'.js',</span> <span class="pre">'.jl',</span> <span class="pre">'.lua',</span> <span class="pre">'.markdown',</span> <span class="pre">'.php',</span> <span class="pre">'.php3',</span> <span class="pre">'.php4',</span> <span class="pre">'.php5',</span> <span class="pre">'.phps',</span> <span class="pre">'.phpt',</span> <span class="pre">'.pl',</span> <span class="pre">'.pm',</span> <span class="pre">'.pod',</span> <span class="pre">'.perl',</span> <span class="pre">'.ps1',</span> <span class="pre">'.psd1',</span> <span class="pre">'.psm1',</span> <span class="pre">'.py',</span> <span class="pre">'.rb',</span> <span class="pre">'.rs',</span> <span class="pre">'.sql',</span> <span class="pre">'.scala',</span> <span class="pre">'.sh',</span> <span class="pre">'.bash',</span> <span class="pre">'.command',</span> <span class="pre">'.zsh',</span> <span class="pre">'.ts',</span> <span class="pre">'.tsx',</span> <span class="pre">'.vb',</span> <span class="pre">'Dockerfile',</span> <span class="pre">'Makefile',</span> <span class="pre">'.xml',</span> <span class="pre">'.rst',</span> <span class="pre">'.m',</span> <span class="pre">'.smali']</span></em><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>add_suffix</strong> – Whether to add file suffix to datase meta
+info</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.text_formatter.TextFormatter.load_dataset">
+<span class="sig-name descname"><span class="pre">load_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Dataset</span></span></span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter.load_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.text_formatter.TextFormatter.load_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Load a dataset from local text-type files.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>num_proc</strong> – number of processes when loading the dataset</p></li>
+<li><p><strong>global_cfg</strong> – the global cfg used in consequent processes,</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>unified_format_dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format.tsv_formatter">
+<span id="data-juicer-format-tsv-formatter-module"></span><h2>data_juicer.format.tsv_formatter module<a class="headerlink" href="#module-data_juicer.format.tsv_formatter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.tsv_formatter.</span></span><span class="sig-name descname"><span class="pre">TsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<p>The class is used to load and format tsv-type files.</p>
+<p>Default suffixes is <cite>[‘.tsv’]</cite></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES">
+<span class="sig-name descname"><span class="pre">SUFFIXES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['.tsv']</span></em><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.format.tsv_formatter.TsvFormatter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.tsv_formatter.TsvFormatter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset_path</strong> – a dataset file or a dataset directory</p></li>
+<li><p><strong>suffixes</strong> – files with specified suffixes to be processed</p></li>
+<li><p><strong>kwargs</strong> – extra args, e.g. <cite>delimiter = ‘,’</cite></p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.format">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.format" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.format.load_formatter">
-<span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">generated_dataset_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">BaseFormatter</span></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load_formatter" title="Link to this definition">¶</a></dt>
+<span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">load_formatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">generated_dataset_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><span class="pre">BaseFormatter</span></a></span></span><a class="reference internal" href="_modules/data_juicer/format/load.html#load_formatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.load_formatter" title="Link to this definition">¶</a></dt>
 <dd><p>Load mixture formatter for multiple different data formats with an optional
 weight(default 1.0) according to their formats.</p>
 <dl class="field-list simple">
@@ -120,7 +657,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.JsonFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">JsonFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/json_formatter.html#JsonFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.JsonFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format json-type files.</p>
 <p>Default suffixes is <cite>[‘.json’, ‘.jsonl’, ‘.jsonl.zst’]</cite></p>
 <dl class="py attribute">
@@ -148,7 +685,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.LocalFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">LocalFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#LocalFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.LocalFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to load a dataset from local files or local
 directory.</p>
 <dl class="py method">
@@ -195,7 +732,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.RemoteFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">RemoteFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/formatter.html#RemoteFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.RemoteFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to load a dataset from repository of huggingface
 hub.</p>
 <dl class="py method">
@@ -236,7 +773,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.TextFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">TextFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/text_formatter.html#TextFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.TextFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format text-type files.</p>
 <p>e.g. <cite>[‘.txt’, ‘.pdf’, ‘.cpp’, ‘.docx’]</cite></p>
 <dl class="py attribute">
@@ -283,7 +820,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.ParquetFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">ParquetFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/parquet_formatter.html#ParquetFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.ParquetFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format parquet-type files.</p>
 <p>Default suffixes is <cite>[‘.parquet’]</cite></p>
 <dl class="py attribute">
@@ -311,7 +848,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.CsvFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">CsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/csv_formatter.html#CsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.CsvFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format csv-type files.</p>
 <p>Default suffixes is <cite>[‘.csv’]</cite></p>
 <dl class="py attribute">
@@ -339,7 +876,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.TsvFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">TsvFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/tsv_formatter.html#TsvFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.TsvFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.LocalFormatter" title="data_juicer.format.formatter.LocalFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></p>
 <p>The class is used to load and format tsv-type files.</p>
 <p>Default suffixes is <cite>[‘.tsv’]</cite></p>
 <dl class="py attribute">
@@ -367,7 +904,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.MixtureFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">MixtureFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">text_keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">add_suffix</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_samples</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/mixture_formatter.html#MixtureFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.MixtureFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class mixes multiple datasets by randomly selecting samples from
 every dataset and merging them, and then exports the merged datasset as a
 new mixed dataset.</p>
@@ -427,7 +964,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.EmptyFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">EmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#EmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.EmptyFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to create empty data.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.format.EmptyFormatter.SUFFIXES">
@@ -463,7 +1000,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.format.RayEmptyFormatter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.format.</span></span><span class="sig-name descname"><span class="pre">RayEmptyFormatter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">length</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">feature_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/format/empty_formatter.html#RayEmptyFormatter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.format.RayEmptyFormatter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.format.formatter.BaseFormatter" title="data_juicer.format.formatter.BaseFormatter"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a></p>
 <p>The class is used to create empty data for ray.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.format.RayEmptyFormatter.SUFFIXES">
@@ -496,13 +1033,14 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.config.html" class="btn btn-neutral float-left" title="data_juicer.config" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.config.html" class="btn btn-neutral float-left" title="data_juicer.config package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
     </div>
 
   <hr/>
diff --git a/data_juicer.html b/data_juicer.html
index 65c60a616..079404037 100644
--- a/data_juicer.html
+++ b/data_juicer.html
@@ -6,13 +6,13 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +66,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer</li>
+      <li class="breadcrumb-item active">data_juicer package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,8 +76,1185 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer">
-<span id="data-juicer"></span><h1>data_juicer<a class="headerlink" href="#module-data_juicer" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-package">
+<h1>data_juicer package<a class="headerlink" href="#data-juicer-package" title="Link to this heading">¶</a></h1>
+<section id="subpackages">
+<h2>Subpackages<a class="headerlink" href="#subpackages" title="Link to this heading">¶</a></h2>
+<div class="toctree-wrapper compound">
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector"><code class="docutils literal notranslate"><span class="pre">TextTokenDistCollector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.__init__"><code class="docutils literal notranslate"><span class="pre">TextTokenDistCollector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.collect"><code class="docutils literal notranslate"><span class="pre">TextTokenDistCollector.collect()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col"><code class="docutils literal notranslate"><span class="pre">get_row_col()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.analyze()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_box()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_wordcloud()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj"><code class="docutils literal notranslate"><span class="pre">find_root_verb_and_its_dobj()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string"><code class="docutils literal notranslate"><span class="pre">find_root_verb_and_its_dobj_in_string()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity"><code class="docutils literal notranslate"><span class="pre">get_diversity()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.compute()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.draw.draw_heatmap"><code class="docutils literal notranslate"><span class="pre">draw_heatmap()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure"><code class="docutils literal notranslate"><span class="pre">Measure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.name"><code class="docutils literal notranslate"><span class="pre">Measure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.measure"><code class="docutils literal notranslate"><span class="pre">Measure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure"><code class="docutils literal notranslate"><span class="pre">KLDivMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.name"><code class="docutils literal notranslate"><span class="pre">KLDivMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.measure"><code class="docutils literal notranslate"><span class="pre">KLDivMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure"><code class="docutils literal notranslate"><span class="pre">JSDivMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.name"><code class="docutils literal notranslate"><span class="pre">JSDivMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.measure"><code class="docutils literal notranslate"><span class="pre">JSDivMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure"><code class="docutils literal notranslate"><span class="pre">CrossEntropyMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.name"><code class="docutils literal notranslate"><span class="pre">CrossEntropyMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.measure"><code class="docutils literal notranslate"><span class="pre">CrossEntropyMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure"><code class="docutils literal notranslate"><span class="pre">EntropyMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.name"><code class="docutils literal notranslate"><span class="pre">EntropyMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.measure"><code class="docutils literal notranslate"><span class="pre">EntropyMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.name"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.stats_to_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.category_to_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.measure"><code class="docutils literal notranslate"><span class="pre">RelatedTTestMeasure.measure()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.refine_single_column()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.analyze()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_hist()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_box()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis.draw_wordcloud()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.compute()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.refine_single_column()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis.analyze()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.update_ds_cache_dir_and_related_vars"><code class="docutils literal notranslate"><span class="pre">update_ds_cache_dir_and_related_vars()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg"><code class="docutils literal notranslate"><span class="pre">init_setup_from_cfg()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.load_ops_with_stats_meta"><code class="docutils literal notranslate"><span class="pre">load_ops_with_stats_meta()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.update_op_attr"><code class="docutils literal notranslate"><span class="pre">update_op_attr()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names"><code class="docutils literal notranslate"><span class="pre">sort_op_by_types_and_names()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.update_op_process"><code class="docutils literal notranslate"><span class="pre">update_op_process()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.namespace_to_arg_list"><code class="docutils literal notranslate"><span class="pre">namespace_to_arg_list()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.config_backup"><code class="docutils literal notranslate"><span class="pre">config_backup()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.display_config"><code class="docutils literal notranslate"><span class="pre">display_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.adapter">data_juicer.core.adapter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter"><code class="docutils literal notranslate"><span class="pre">Adapter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.MAX_BATCH_SIZE"><code class="docutils literal notranslate"><span class="pre">Adapter.MAX_BATCH_SIZE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.__init__"><code class="docutils literal notranslate"><span class="pre">Adapter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.execute_and_probe"><code class="docutils literal notranslate"><span class="pre">Adapter.execute_and_probe()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.take_batch"><code class="docutils literal notranslate"><span class="pre">Adapter.take_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.adapt_workloads"><code class="docutils literal notranslate"><span class="pre">Adapter.adapt_workloads()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.probe_small_batch"><code class="docutils literal notranslate"><span class="pre">Adapter.probe_small_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.batch_size_strategy"><code class="docutils literal notranslate"><span class="pre">Adapter.batch_size_strategy()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.analyze_small_batch"><code class="docutils literal notranslate"><span class="pre">Adapter.analyze_small_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.adapter.Adapter.insight_mining"><code class="docutils literal notranslate"><span class="pre">Adapter.insight_mining()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyzer">data_juicer.core.analyzer module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyzer.Analyzer"><code class="docutils literal notranslate"><span class="pre">Analyzer</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyzer.Analyzer.__init__"><code class="docutils literal notranslate"><span class="pre">Analyzer.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.analyzer.Analyzer.run"><code class="docutils literal notranslate"><span class="pre">Analyzer.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.DJDataset"><code class="docutils literal notranslate"><span class="pre">DJDataset</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.DJDataset.process"><code class="docutils literal notranslate"><span class="pre">DJDataset.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access"><code class="docutils literal notranslate"><span class="pre">wrap_func_with_nested_access()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.nested_obj_factory"><code class="docutils literal notranslate"><span class="pre">nested_obj_factory()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict"><code class="docutils literal notranslate"><span class="pre">NestedQueryDict</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict.__init__"><code class="docutils literal notranslate"><span class="pre">NestedQueryDict.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.__init__"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map"><code class="docutils literal notranslate"><span class="pre">NestedDatasetDict.map()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset"><code class="docutils literal notranslate"><span class="pre">NestedDataset</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.__init__"><code class="docutils literal notranslate"><span class="pre">NestedDataset.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.process"><code class="docutils literal notranslate"><span class="pre">NestedDataset.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.update_args"><code class="docutils literal notranslate"><span class="pre">NestedDataset.update_args()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.map"><code class="docutils literal notranslate"><span class="pre">NestedDataset.map()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.filter"><code class="docutils literal notranslate"><span class="pre">NestedDataset.filter()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select"><code class="docutils literal notranslate"><span class="pre">NestedDataset.select()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.from_dict"><code class="docutils literal notranslate"><span class="pre">NestedDataset.from_dict()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column"><code class="docutils literal notranslate"><span class="pre">NestedDataset.add_column()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select_columns"><code class="docutils literal notranslate"><span class="pre">NestedDataset.select_columns()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.remove_columns"><code class="docutils literal notranslate"><span class="pre">NestedDataset.remove_columns()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">NestedDataset.cleanup_cache_files()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.NestedDataset.load_from_disk"><code class="docutils literal notranslate"><span class="pre">NestedDataset.load_from_disk()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.nested_query"><code class="docutils literal notranslate"><span class="pre">nested_query()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.add_same_content_to_new_column"><code class="docutils literal notranslate"><span class="pre">add_same_content_to_new_column()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor"><code class="docutils literal notranslate"><span class="pre">Executor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor.__init__"><code class="docutils literal notranslate"><span class="pre">Executor.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor.sample_data"><code class="docutils literal notranslate"><span class="pre">Executor.sample_data()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.executor.Executor.run"><code class="docutils literal notranslate"><span class="pre">Executor.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter"><code class="docutils literal notranslate"><span class="pre">Exporter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.KiB"><code class="docutils literal notranslate"><span class="pre">Exporter.KiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.MiB"><code class="docutils literal notranslate"><span class="pre">Exporter.MiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.GiB"><code class="docutils literal notranslate"><span class="pre">Exporter.GiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.TiB"><code class="docutils literal notranslate"><span class="pre">Exporter.TiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.__init__"><code class="docutils literal notranslate"><span class="pre">Exporter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export"><code class="docutils literal notranslate"><span class="pre">Exporter.export()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export_compute_stats"><code class="docutils literal notranslate"><span class="pre">Exporter.export_compute_stats()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl"><code class="docutils literal notranslate"><span class="pre">Exporter.to_jsonl()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_json"><code class="docutils literal notranslate"><span class="pre">Exporter.to_json()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet"><code class="docutils literal notranslate"><span class="pre">Exporter.to_parquet()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.resource_monitor"><code class="docutils literal notranslate"><span class="pre">resource_monitor()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor"><code class="docutils literal notranslate"><span class="pre">Monitor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS"><code class="docutils literal notranslate"><span class="pre">Monitor.DYNAMIC_FIELDS</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.__init__"><code class="docutils literal notranslate"><span class="pre">Monitor.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_all_resources"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_all_resources()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_current_resources"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_current_resources()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.draw_resource_util_graph"><code class="docutils literal notranslate"><span class="pre">Monitor.draw_resource_util_graph()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_resource_util_list"><code class="docutils literal notranslate"><span class="pre">Monitor.analyze_resource_util_list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_single_resource_util"><code class="docutils literal notranslate"><span class="pre">Monitor.analyze_single_resource_util()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_func"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_func()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_data">data_juicer.core.ray_data module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.get_abs_path"><code class="docutils literal notranslate"><span class="pre">get_abs_path()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.convert_to_absolute_paths"><code class="docutils literal notranslate"><span class="pre">convert_to_absolute_paths()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.set_dataset_to_absolute_path"><code class="docutils literal notranslate"><span class="pre">set_dataset_to_absolute_path()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.preprocess_dataset"><code class="docutils literal notranslate"><span class="pre">preprocess_dataset()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.get_num_gpus"><code class="docutils literal notranslate"><span class="pre">get_num_gpus()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.filter_batch"><code class="docutils literal notranslate"><span class="pre">filter_batch()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset"><code class="docutils literal notranslate"><span class="pre">RayDataset</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset.__init__"><code class="docutils literal notranslate"><span class="pre">RayDataset.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset.process"><code class="docutils literal notranslate"><span class="pre">RayDataset.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset.read_json"><code class="docutils literal notranslate"><span class="pre">RayDataset.read_json()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.JSONStreamDatasource"><code class="docutils literal notranslate"><span class="pre">JSONStreamDatasource</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_data.read_json_stream"><code class="docutils literal notranslate"><span class="pre">read_json_stream()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_executor">data_juicer.core.ray_executor module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor"><code class="docutils literal notranslate"><span class="pre">RayExecutor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.__init__"><code class="docutils literal notranslate"><span class="pre">RayExecutor.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.run"><code class="docutils literal notranslate"><span class="pre">RayExecutor.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer"><code class="docutils literal notranslate"><span class="pre">Tracer</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.__init__"><code class="docutils literal notranslate"><span class="pre">Tracer.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_mapper()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_batch_mapper()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_filter()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_deduplicator()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter"><code class="docutils literal notranslate"><span class="pre">Adapter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.MAX_BATCH_SIZE"><code class="docutils literal notranslate"><span class="pre">Adapter.MAX_BATCH_SIZE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.__init__"><code class="docutils literal notranslate"><span class="pre">Adapter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.execute_and_probe"><code class="docutils literal notranslate"><span class="pre">Adapter.execute_and_probe()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.take_batch"><code class="docutils literal notranslate"><span class="pre">Adapter.take_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.adapt_workloads"><code class="docutils literal notranslate"><span class="pre">Adapter.adapt_workloads()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.probe_small_batch"><code class="docutils literal notranslate"><span class="pre">Adapter.probe_small_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.batch_size_strategy"><code class="docutils literal notranslate"><span class="pre">Adapter.batch_size_strategy()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.analyze_small_batch"><code class="docutils literal notranslate"><span class="pre">Adapter.analyze_small_batch()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter.insight_mining"><code class="docutils literal notranslate"><span class="pre">Adapter.insight_mining()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Analyzer"><code class="docutils literal notranslate"><span class="pre">Analyzer</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Analyzer.__init__"><code class="docutils literal notranslate"><span class="pre">Analyzer.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Analyzer.run"><code class="docutils literal notranslate"><span class="pre">Analyzer.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset"><code class="docutils literal notranslate"><span class="pre">NestedDataset</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.__init__"><code class="docutils literal notranslate"><span class="pre">NestedDataset.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.process"><code class="docutils literal notranslate"><span class="pre">NestedDataset.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.update_args"><code class="docutils literal notranslate"><span class="pre">NestedDataset.update_args()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.map"><code class="docutils literal notranslate"><span class="pre">NestedDataset.map()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.filter"><code class="docutils literal notranslate"><span class="pre">NestedDataset.filter()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.select"><code class="docutils literal notranslate"><span class="pre">NestedDataset.select()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.from_dict"><code class="docutils literal notranslate"><span class="pre">NestedDataset.from_dict()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.add_column"><code class="docutils literal notranslate"><span class="pre">NestedDataset.add_column()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.select_columns"><code class="docutils literal notranslate"><span class="pre">NestedDataset.select_columns()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.remove_columns"><code class="docutils literal notranslate"><span class="pre">NestedDataset.remove_columns()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">NestedDataset.cleanup_cache_files()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset.load_from_disk"><code class="docutils literal notranslate"><span class="pre">NestedDataset.load_from_disk()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Executor"><code class="docutils literal notranslate"><span class="pre">Executor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Executor.__init__"><code class="docutils literal notranslate"><span class="pre">Executor.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Executor.sample_data"><code class="docutils literal notranslate"><span class="pre">Executor.sample_data()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Executor.run"><code class="docutils literal notranslate"><span class="pre">Executor.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter"><code class="docutils literal notranslate"><span class="pre">Exporter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.KiB"><code class="docutils literal notranslate"><span class="pre">Exporter.KiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.MiB"><code class="docutils literal notranslate"><span class="pre">Exporter.MiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.GiB"><code class="docutils literal notranslate"><span class="pre">Exporter.GiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.TiB"><code class="docutils literal notranslate"><span class="pre">Exporter.TiB</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.__init__"><code class="docutils literal notranslate"><span class="pre">Exporter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.export"><code class="docutils literal notranslate"><span class="pre">Exporter.export()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.export_compute_stats"><code class="docutils literal notranslate"><span class="pre">Exporter.export_compute_stats()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.to_jsonl"><code class="docutils literal notranslate"><span class="pre">Exporter.to_jsonl()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.to_json"><code class="docutils literal notranslate"><span class="pre">Exporter.to_json()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter.to_parquet"><code class="docutils literal notranslate"><span class="pre">Exporter.to_parquet()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor"><code class="docutils literal notranslate"><span class="pre">Monitor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.DYNAMIC_FIELDS"><code class="docutils literal notranslate"><span class="pre">Monitor.DYNAMIC_FIELDS</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.__init__"><code class="docutils literal notranslate"><span class="pre">Monitor.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.monitor_all_resources"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_all_resources()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.monitor_current_resources"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_current_resources()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.draw_resource_util_graph"><code class="docutils literal notranslate"><span class="pre">Monitor.draw_resource_util_graph()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.analyze_resource_util_list"><code class="docutils literal notranslate"><span class="pre">Monitor.analyze_resource_util_list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.analyze_single_resource_util"><code class="docutils literal notranslate"><span class="pre">Monitor.analyze_single_resource_util()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor.monitor_func"><code class="docutils literal notranslate"><span class="pre">Monitor.monitor_func()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer"><code class="docutils literal notranslate"><span class="pre">Tracer</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer.__init__"><code class="docutils literal notranslate"><span class="pre">Tracer.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer.trace_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_mapper()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer.trace_batch_mapper"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_batch_mapper()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer.trace_filter"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_filter()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer.trace_deduplicator"><code class="docutils literal notranslate"><span class="pre">Tracer.trace_deduplicator()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter"><code class="docutils literal notranslate"><span class="pre">BaseFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">BaseFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.add_suffixes"><code class="docutils literal notranslate"><span class="pre">add_suffixes()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.unify_format"><code class="docutils literal notranslate"><span class="pre">unify_format()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.formatter.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.random_sample()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx"><code class="docutils literal notranslate"><span class="pre">extract_txt_from_docx()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf"><code class="docutils literal notranslate"><span class="pre">extract_txt_from_pdf()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TextFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TextFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">TextFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">JsonFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">LocalFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TextFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TextFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">TextFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">CsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">TsvFormatter.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.random_sample()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.SUFFIXES"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.SUFFIXES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.null_value"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.null_value</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter.load_dataset()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html">data_juicer.ops.aggregator package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">data_juicer.ops.aggregator.entity_attribute_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">data_juicer.ops.aggregator.most_relavant_entities_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">data_juicer.ops.aggregator.nested_aggregator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html">data_juicer.ops.grouper package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">data_juicer.ops.grouper.key_value_grouper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">data_juicer.ops.grouper.naive_grouper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.convert_list_dict_to_dict_list"><code class="docutils literal notranslate"><span class="pre">convert_list_dict_to_dict_list()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.convert_dict_list_to_list_dict"><code class="docutils literal notranslate"><span class="pre">convert_dict_list_to_list_dict()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.convert_arrow_to_python"><code class="docutils literal notranslate"><span class="pre">convert_arrow_to_python()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_batches_exception"><code class="docutils literal notranslate"><span class="pre">catch_map_batches_exception()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_single_exception"><code class="docutils literal notranslate"><span class="pre">catch_map_single_exception()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP"><code class="docutils literal notranslate"><span class="pre">OP</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.__init__"><code class="docutils literal notranslate"><span class="pre">OP.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.is_batched_op"><code class="docutils literal notranslate"><span class="pre">OP.is_batched_op()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.process"><code class="docutils literal notranslate"><span class="pre">OP.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.use_cuda"><code class="docutils literal notranslate"><span class="pre">OP.use_cuda()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.runtime_np"><code class="docutils literal notranslate"><span class="pre">OP.runtime_np()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.remove_extra_parameters"><code class="docutils literal notranslate"><span class="pre">OP.remove_extra_parameters()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.add_parameters"><code class="docutils literal notranslate"><span class="pre">OP.add_parameters()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.run"><code class="docutils literal notranslate"><span class="pre">OP.run()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.OP.empty_history"><code class="docutils literal notranslate"><span class="pre">OP.empty_history()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__"><code class="docutils literal notranslate"><span class="pre">Mapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_batched"><code class="docutils literal notranslate"><span class="pre">Mapper.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_single"><code class="docutils literal notranslate"><span class="pre">Mapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.run"><code class="docutils literal notranslate"><span class="pre">Mapper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__"><code class="docutils literal notranslate"><span class="pre">Filter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_batched"><code class="docutils literal notranslate"><span class="pre">Filter.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_single"><code class="docutils literal notranslate"><span class="pre">Filter.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.run"><code class="docutils literal notranslate"><span class="pre">Filter.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">Deduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">Deduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process"><code class="docutils literal notranslate"><span class="pre">Deduplicator.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.run"><code class="docutils literal notranslate"><span class="pre">Deduplicator.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__"><code class="docutils literal notranslate"><span class="pre">Selector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process"><code class="docutils literal notranslate"><span class="pre">Selector.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.run"><code class="docutils literal notranslate"><span class="pre">Selector.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper"><code class="docutils literal notranslate"><span class="pre">Grouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.__init__"><code class="docutils literal notranslate"><span class="pre">Grouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.process"><code class="docutils literal notranslate"><span class="pre">Grouper.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.run"><code class="docutils literal notranslate"><span class="pre">Grouper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator"><code class="docutils literal notranslate"><span class="pre">Aggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.__init__"><code class="docutils literal notranslate"><span class="pre">Aggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.process_single"><code class="docutils literal notranslate"><span class="pre">Aggregator.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.run"><code class="docutils literal notranslate"><span class="pre">Aggregator.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.load.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_operators"><code class="docutils literal notranslate"><span class="pre">fuse_operators()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_filter_group"><code class="docutils literal notranslate"><span class="pre">fuse_filter_group()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter"><code class="docutils literal notranslate"><span class="pre">FusedFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FusedFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">FusedFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">FusedFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.__init__"><code class="docutils literal notranslate"><span class="pre">Filter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.process_batched"><code class="docutils literal notranslate"><span class="pre">Filter.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">Filter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.process_single"><code class="docutils literal notranslate"><span class="pre">Filter.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter.run"><code class="docutils literal notranslate"><span class="pre">Filter.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.__init__"><code class="docutils literal notranslate"><span class="pre">Mapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.process_batched"><code class="docutils literal notranslate"><span class="pre">Mapper.process_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.process_single"><code class="docutils literal notranslate"><span class="pre">Mapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper.run"><code class="docutils literal notranslate"><span class="pre">Mapper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">Deduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">Deduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.process"><code class="docutils literal notranslate"><span class="pre">Deduplicator.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator.run"><code class="docutils literal notranslate"><span class="pre">Deduplicator.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector.__init__"><code class="docutils literal notranslate"><span class="pre">Selector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector.process"><code class="docutils literal notranslate"><span class="pre">Selector.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector.run"><code class="docutils literal notranslate"><span class="pre">Selector.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper"><code class="docutils literal notranslate"><span class="pre">Grouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper.__init__"><code class="docutils literal notranslate"><span class="pre">Grouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper.process"><code class="docutils literal notranslate"><span class="pre">Grouper.process()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper.run"><code class="docutils literal notranslate"><span class="pre">Grouper.run()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator"><code class="docutils literal notranslate"><span class="pre">Aggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator.__init__"><code class="docutils literal notranslate"><span class="pre">Aggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator.process_single"><code class="docutils literal notranslate"><span class="pre">Aggregator.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator.run"><code class="docutils literal notranslate"><span class="pre">Aggregator.run()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.tools.html">data_juicer.tools package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.tools.html#module-data_juicer.tools">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset"><code class="docutils literal notranslate"><span class="pre">load_words_asset()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">data_juicer.utils.auto_install_mapping module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">data_juicer.utils.auto_install_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller"><code class="docutils literal notranslate"><span class="pre">AutoInstaller</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.__init__"><code class="docutils literal notranslate"><span class="pre">AutoInstaller.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.check"><code class="docutils literal notranslate"><span class="pre">AutoInstaller.check()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.install"><code class="docutils literal notranslate"><span class="pre">AutoInstaller.install()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">data_juicer.utils.availability_utils module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl"><code class="docutils literal notranslate"><span class="pre">DatasetCacheControl</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl.__init__"><code class="docutils literal notranslate"><span class="pre">DatasetCacheControl.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.cache_utils.dataset_cache_control"><code class="docutils literal notranslate"><span class="pre">dataset_cache_control()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager"><code class="docutils literal notranslate"><span class="pre">CheckpointManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.get_left_process_list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ckpt()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.record()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.check_ops_to_skip()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.save_ckpt()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt"><code class="docutils literal notranslate"><span class="pre">CheckpointManager.load_ckpt()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.common_utils">data_juicer.utils.common_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.stats_to_number"><code class="docutils literal notranslate"><span class="pre">stats_to_number()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.dict_to_hash"><code class="docutils literal notranslate"><span class="pre">dict_to_hash()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.nested_access"><code class="docutils literal notranslate"><span class="pre">nested_access()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.nested_set"><code class="docutils literal notranslate"><span class="pre">nested_set()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.is_string_list"><code class="docutils literal notranslate"><span class="pre">is_string_list()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.avg_split_string_list_under_limit"><code class="docutils literal notranslate"><span class="pre">avg_split_string_list_under_limit()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.common_utils.is_float"><code class="docutils literal notranslate"><span class="pre">is_float()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.compress">data_juicer.utils.compress module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.FileLock"><code class="docutils literal notranslate"><span class="pre">FileLock</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Extractor"><code class="docutils literal notranslate"><span class="pre">Extractor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Extractor.extract"><code class="docutils literal notranslate"><span class="pre">Extractor.extract()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor"><code class="docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor.compress"><code class="docutils literal notranslate"><span class="pre">BaseCompressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor"><code class="docutils literal notranslate"><span class="pre">ZstdCompressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor.compress"><code class="docutils literal notranslate"><span class="pre">ZstdCompressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor"><code class="docutils literal notranslate"><span class="pre">Lz4Compressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor.compress"><code class="docutils literal notranslate"><span class="pre">Lz4Compressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor"><code class="docutils literal notranslate"><span class="pre">GzipCompressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor.compress"><code class="docutils literal notranslate"><span class="pre">GzipCompressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Compressor"><code class="docutils literal notranslate"><span class="pre">Compressor</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compressors"><code class="docutils literal notranslate"><span class="pre">Compressor.compressors</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compress"><code class="docutils literal notranslate"><span class="pre">Compressor.compress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager"><code class="docutils literal notranslate"><span class="pre">CompressManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__"><code class="docutils literal notranslate"><span class="pre">CompressManager.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress"><code class="docutils literal notranslate"><span class="pre">CompressManager.compress()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress"><code class="docutils literal notranslate"><span class="pre">CompressManager.decompress()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.compress()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.decompress()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.format_cache_file_name()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files"><code class="docutils literal notranslate"><span class="pre">CacheCompressManager.cleanup_cache_files()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.CompressionOff"><code class="docutils literal notranslate"><span class="pre">CompressionOff</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.compress"><code class="docutils literal notranslate"><span class="pre">compress()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.decompress"><code class="docutils literal notranslate"><span class="pre">decompress()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.compress.cleanup_compressed_cache_files"><code class="docutils literal notranslate"><span class="pre">cleanup_compressed_cache_files()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.constant">data_juicer.utils.constant module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields"><code class="docutils literal notranslate"><span class="pre">Fields</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.stats"><code class="docutils literal notranslate"><span class="pre">Fields.stats</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.meta"><code class="docutils literal notranslate"><span class="pre">Fields.meta</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.context"><code class="docutils literal notranslate"><span class="pre">Fields.context</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.suffix"><code class="docutils literal notranslate"><span class="pre">Fields.suffix</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.video_frame_tags"><code class="docutils literal notranslate"><span class="pre">Fields.video_frame_tags</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.video_audio_tags"><code class="docutils literal notranslate"><span class="pre">Fields.video_audio_tags</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.image_tags"><code class="docutils literal notranslate"><span class="pre">Fields.image_tags</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.video_frames"><code class="docutils literal notranslate"><span class="pre">Fields.video_frames</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.source_file"><code class="docutils literal notranslate"><span class="pre">Fields.source_file</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.multimodal_data_output_dir"><code class="docutils literal notranslate"><span class="pre">Fields.multimodal_data_output_dir</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.event_description"><code class="docutils literal notranslate"><span class="pre">Fields.event_description</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relevant_characters"><code class="docutils literal notranslate"><span class="pre">Fields.relevant_characters</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.main_entities"><code class="docutils literal notranslate"><span class="pre">Fields.main_entities</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.attributes"><code class="docutils literal notranslate"><span class="pre">Fields.attributes</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.attribute_descriptions"><code class="docutils literal notranslate"><span class="pre">Fields.attribute_descriptions</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.attribute_support_texts"><code class="docutils literal notranslate"><span class="pre">Fields.attribute_support_texts</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.nickname"><code class="docutils literal notranslate"><span class="pre">Fields.nickname</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity"><code class="docutils literal notranslate"><span class="pre">Fields.entity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity_name"><code class="docutils literal notranslate"><span class="pre">Fields.entity_name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity_type"><code class="docutils literal notranslate"><span class="pre">Fields.entity_type</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity_description"><code class="docutils literal notranslate"><span class="pre">Fields.entity_description</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation"><code class="docutils literal notranslate"><span class="pre">Fields.relation</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.source_entity"><code class="docutils literal notranslate"><span class="pre">Fields.source_entity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.target_entity"><code class="docutils literal notranslate"><span class="pre">Fields.target_entity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation_description"><code class="docutils literal notranslate"><span class="pre">Fields.relation_description</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation_keywords"><code class="docutils literal notranslate"><span class="pre">Fields.relation_keywords</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation_strength"><code class="docutils literal notranslate"><span class="pre">Fields.relation_strength</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.keyword"><code class="docutils literal notranslate"><span class="pre">Fields.keyword</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.Fields.support_text"><code class="docutils literal notranslate"><span class="pre">Fields.support_text</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta"><code class="docutils literal notranslate"><span class="pre">StatsKeysMeta</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta.get_access_log"><code class="docutils literal notranslate"><span class="pre">StatsKeysMeta.get_access_log()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.alpha_token_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alnum_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.alnum_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.avg_line_length"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.avg_line_length</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.char_rep_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.flagged_words_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.lang</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.lang_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.max_line_length"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.max_line_length</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.perplexity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.perplexity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.special_char_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.special_char_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.stopwords_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.text_len"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.text_len</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_action"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_action</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_dependency_edges</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_token"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_token</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_words"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.num_words</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.word_rep_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.aspect_ratios"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.aspect_ratios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_width"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_width</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_height"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_height</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_sizes"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_sizes</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_ratios"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.face_ratios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_detections"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.face_detections</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_counts"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.face_counts</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_aesthetics_scores</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_nsfw_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_watermark_prob</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_pair_similarity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_duration"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.audio_duration</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.audio_nmf_snr</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_sizes"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.audio_sizes</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_duration"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_duration</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_aspect_ratios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_width"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_width</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_height"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_height</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_ocr_area_ratio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_aesthetic_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_frames_aesthetics_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_motion_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_motion_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_nsfw_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_watermark_prob</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_similarity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_text_similarity</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.image_text_matching_score</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.phrase_grounding_recall</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity"><code class="docutils literal notranslate"><span class="pre">StatsKeysConstant.video_frames_text_similarity</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeys"><code class="docutils literal notranslate"><span class="pre">StatsKeys</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys"><code class="docutils literal notranslate"><span class="pre">HashKeys</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.hash"><code class="docutils literal notranslate"><span class="pre">HashKeys.hash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.minhash"><code class="docutils literal notranslate"><span class="pre">HashKeys.minhash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.simhash"><code class="docutils literal notranslate"><span class="pre">HashKeys.simhash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.imagehash"><code class="docutils literal notranslate"><span class="pre">HashKeys.imagehash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.videohash"><code class="docutils literal notranslate"><span class="pre">HashKeys.videohash</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.is_duplicate"><code class="docutils literal notranslate"><span class="pre">HashKeys.is_duplicate</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars"><code class="docutils literal notranslate"><span class="pre">InterVars</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.lines"><code class="docutils literal notranslate"><span class="pre">InterVars.lines</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.words"><code class="docutils literal notranslate"><span class="pre">InterVars.words</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.refined_words"><code class="docutils literal notranslate"><span class="pre">InterVars.refined_words</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_images"><code class="docutils literal notranslate"><span class="pre">InterVars.loaded_images</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_audios"><code class="docutils literal notranslate"><span class="pre">InterVars.loaded_audios</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_videos"><code class="docutils literal notranslate"><span class="pre">InterVars.loaded_videos</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.sampled_frames"><code class="docutils literal notranslate"><span class="pre">InterVars.sampled_frames</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.hook"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.hook</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.dj_configs"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.dj_configs</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.meta_name"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.meta_name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.extra_configs"><code class="docutils literal notranslate"><span class="pre">JobRequiredKeys.extra_configs</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.follow_read"><code class="docutils literal notranslate"><span class="pre">follow_read()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix"><code class="docutils literal notranslate"><span class="pre">find_files_with_suffix()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path"><code class="docutils literal notranslate"><span class="pre">is_absolute_path()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.add_suffix_to_filename"><code class="docutils literal notranslate"><span class="pre">add_suffix_to_filename()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.create_directory_if_not_exists"><code class="docutils literal notranslate"><span class="pre">create_directory_if_not_exists()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.transfer_filename"><code class="docutils literal notranslate"><span class="pre">transfer_filename()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.file_utils.copy_data"><code class="docutils literal notranslate"><span class="pre">copy_data()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher"><code class="docutils literal notranslate"><span class="pre">Hasher</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.dispatch"><code class="docutils literal notranslate"><span class="pre">Hasher.dispatch</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__"><code class="docutils literal notranslate"><span class="pre">Hasher.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes"><code class="docutils literal notranslate"><span class="pre">Hasher.hash_bytes()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_default"><code class="docutils literal notranslate"><span class="pre">Hasher.hash_default()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash"><code class="docutils literal notranslate"><span class="pre">Hasher.hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.update"><code class="docutils literal notranslate"><span class="pre">Hasher.update()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hexdigest"><code class="docutils literal notranslate"><span class="pre">Hasher.hexdigest()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.update_fingerprint"><code class="docutils literal notranslate"><span class="pre">update_fingerprint()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.generate_fingerprint"><code class="docutils literal notranslate"><span class="pre">generate_fingerprint()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">data_juicer.utils.lazy_loader module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader"><code class="docutils literal notranslate"><span class="pre">LazyLoader</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader.__init__"><code class="docutils literal notranslate"><span class="pre">LazyLoader.__init__()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name"><code class="docutils literal notranslate"><span class="pre">get_caller_name()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.write()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.getvalue"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.getvalue()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush"><code class="docutils literal notranslate"><span class="pre">StreamToLoguru.flush()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output"><code class="docutils literal notranslate"><span class="pre">redirect_sys_output()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path"><code class="docutils literal notranslate"><span class="pre">get_log_file_path()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger"><code class="docutils literal notranslate"><span class="pre">setup_logger()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints"><code class="docutils literal notranslate"><span class="pre">HiddenPrints</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">data_juicer.utils.mm_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens"><code class="docutils literal notranslate"><span class="pre">SpecialTokens</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.image"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.image</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.audio"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.audio</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.video"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.video</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.eoc"><code class="docutils literal notranslate"><span class="pre">SpecialTokens.eoc</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE"><code class="docutils literal notranslate"><span class="pre">AV_STREAM_THREAD_TYPE</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_special_tokens"><code class="docutils literal notranslate"><span class="pre">get_special_tokens()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_special_tokens"><code class="docutils literal notranslate"><span class="pre">remove_special_tokens()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_non_special_tokens"><code class="docutils literal notranslate"><span class="pre">remove_non_special_tokens()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_data_with_context"><code class="docutils literal notranslate"><span class="pre">load_data_with_context()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images"><code class="docutils literal notranslate"><span class="pre">load_images()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images_byte"><code class="docutils literal notranslate"><span class="pre">load_images_byte()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image"><code class="docutils literal notranslate"><span class="pre">load_image()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image_byte"><code class="docutils literal notranslate"><span class="pre">load_image_byte()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_path_to_base64"><code class="docutils literal notranslate"><span class="pre">image_path_to_base64()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_byte_to_base64"><code class="docutils literal notranslate"><span class="pre">image_byte_to_base64()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.pil_to_opencv"><code class="docutils literal notranslate"><span class="pre">pil_to_opencv()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.detect_faces"><code class="docutils literal notranslate"><span class="pre">detect_faces()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_file_size"><code class="docutils literal notranslate"><span class="pre">get_file_size()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.iou"><code class="docutils literal notranslate"><span class="pre">iou()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.calculate_resized_dimensions"><code class="docutils literal notranslate"><span class="pre">calculate_resized_dimensions()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audios"><code class="docutils literal notranslate"><span class="pre">load_audios()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audio"><code class="docutils literal notranslate"><span class="pre">load_audio()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_videos"><code class="docutils literal notranslate"><span class="pre">load_videos()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_video"><code class="docutils literal notranslate"><span class="pre">load_video()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_video_duration"><code class="docutils literal notranslate"><span class="pre">get_video_duration()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_decoded_frames_from_video"><code class="docutils literal notranslate"><span class="pre">get_decoded_frames_from_video()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.cut_video_by_seconds"><code class="docutils literal notranslate"><span class="pre">cut_video_by_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.process_each_frame"><code class="docutils literal notranslate"><span class="pre">process_each_frame()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames_by_seconds"><code class="docutils literal notranslate"><span class="pre">extract_key_frames_by_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames"><code class="docutils literal notranslate"><span class="pre">extract_key_frames()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_key_frame_seconds"><code class="docutils literal notranslate"><span class="pre">get_key_frame_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds"><code class="docutils literal notranslate"><span class="pre">extract_video_frames_uniformly_by_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly"><code class="docutils literal notranslate"><span class="pre">extract_video_frames_uniformly()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_audio_from_video"><code class="docutils literal notranslate"><span class="pre">extract_audio_from_video()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.size_to_bytes"><code class="docutils literal notranslate"><span class="pre">size_to_bytes()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.insert_texts_after_placeholders"><code class="docutils literal notranslate"><span class="pre">insert_texts_after_placeholders()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.timecode_string_to_seconds"><code class="docutils literal notranslate"><span class="pre">timecode_string_to_seconds()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.parse_string_to_roi"><code class="docutils literal notranslate"><span class="pre">parse_string_to_roi()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.mm_utils.close_video"><code class="docutils literal notranslate"><span class="pre">close_video()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.get_backup_model_link"><code class="docutils literal notranslate"><span class="pre">get_backup_model_link()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.check_model"><code class="docutils literal notranslate"><span class="pre">check_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel"><code class="docutils literal notranslate"><span class="pre">APIModel</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel.__init__"><code class="docutils literal notranslate"><span class="pre">APIModel.__init__()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_api_model"><code class="docutils literal notranslate"><span class="pre">prepare_api_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diffusion_model"><code class="docutils literal notranslate"><span class="pre">prepare_diffusion_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model"><code class="docutils literal notranslate"><span class="pre">prepare_fasttext_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_model"><code class="docutils literal notranslate"><span class="pre">prepare_huggingface_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model"><code class="docutils literal notranslate"><span class="pre">prepare_kenlm_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model"><code class="docutils literal notranslate"><span class="pre">prepare_nltk_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_opencv_classifier"><code class="docutils literal notranslate"><span class="pre">prepare_opencv_classifier()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_recognizeAnything_model"><code class="docutils literal notranslate"><span class="pre">prepare_recognizeAnything_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model"><code class="docutils literal notranslate"><span class="pre">prepare_sentencepiece_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang"><code class="docutils literal notranslate"><span class="pre">prepare_sentencepiece_for_lang()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_simple_aesthetics_model"><code class="docutils literal notranslate"><span class="pre">prepare_simple_aesthetics_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_spacy_model"><code class="docutils literal notranslate"><span class="pre">prepare_spacy_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_video_blip_model"><code class="docutils literal notranslate"><span class="pre">prepare_video_blip_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_vllm_model"><code class="docutils literal notranslate"><span class="pre">prepare_vllm_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model"><code class="docutils literal notranslate"><span class="pre">prepare_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.get_model"><code class="docutils literal notranslate"><span class="pre">get_model()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.model_utils.free_models"><code class="docutils literal notranslate"><span class="pre">free_models()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.process_utils">data_juicer.utils.process_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.process_utils.setup_mp"><code class="docutils literal notranslate"><span class="pre">setup_mp()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.process_utils.get_min_cuda_memory"><code class="docutils literal notranslate"><span class="pre">get_min_cuda_memory()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.process_utils.calculate_np"><code class="docutils literal notranslate"><span class="pre">calculate_np()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry"><code class="docutils literal notranslate"><span class="pre">Registry</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__"><code class="docutils literal notranslate"><span class="pre">Registry.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.name"><code class="docutils literal notranslate"><span class="pre">Registry.name</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules"><code class="docutils literal notranslate"><span class="pre">Registry.modules</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list"><code class="docutils literal notranslate"><span class="pre">Registry.list()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get"><code class="docutils literal notranslate"><span class="pre">Registry.get()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module"><code class="docutils literal notranslate"><span class="pre">Registry.register_module()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">data_juicer.utils.resource_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_cuda_info"><code class="docutils literal notranslate"><span class="pre">query_cuda_info()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_count"><code class="docutils literal notranslate"><span class="pre">get_cpu_count()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_utilization"><code class="docutils literal notranslate"><span class="pre">get_cpu_utilization()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_mem_info"><code class="docutils literal notranslate"><span class="pre">query_mem_info()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">data_juicer.utils.unittest_utils module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.TEST_TAG"><code class="docutils literal notranslate"><span class="pre">TEST_TAG()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.set_clear_model_flag"><code class="docutils literal notranslate"><span class="pre">set_clear_model_flag()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.setUpClass()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.tearDownClass()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.tearDown()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.generate_dataset()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.run_single_op()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual"><code class="docutils literal notranslate"><span class="pre">DataJuicerTestCaseBase.assertDatasetEqual()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
+</ul>
+</li>
+</ul>
+</div>
+</section>
+<section id="module-data_juicer">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.cuda_device_count">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.</span></span><span class="sig-name descname"><span class="pre">cuda_device_count</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer.html#cuda_device_count"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.cuda_device_count" title="Link to this definition">¶</a></dt>
@@ -88,6 +1265,7 @@
 <span class="sig-prename descclassname"><span class="pre">data_juicer.</span></span><span class="sig-name descname"><span class="pre">is_cuda_available</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer.html#is_cuda_available"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.is_cuda_available" title="Link to this definition">¶</a></dt>
 <dd></dd></dl>
 
+</section>
 </section>
 
 
diff --git a/data_juicer.ops.aggregator.html b/data_juicer.ops.aggregator.html
index da7d1d9d8..90b9b8028 100644
--- a/data_juicer.ops.aggregator.html
+++ b/data_juicer.ops.aggregator.html
@@ -6,17 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.aggregator &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.aggregator package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" /> 
+    <link rel="search" title="Search" href="search.html" />
+    <link rel="next" title="data_juicer.ops.common package" href="data_juicer.ops.common.html" />
+    <link rel="prev" title="data_juicer.ops package" href="data_juicer.ops.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -39,17 +41,25 @@
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
+<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +76,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.aggregator</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.aggregator package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.aggregator.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,12 +87,285 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.aggregator">
-<span id="data-juicer-ops-aggregator"></span><h1>data_juicer.ops.aggregator<a class="headerlink" href="#module-data_juicer.ops.aggregator" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-aggregator-package">
+<h1>data_juicer.ops.aggregator package<a class="headerlink" href="#data-juicer-ops-aggregator-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.aggregator.entity_attribute_aggregator">
+<span id="data-juicer-ops-aggregator-entity-attribute-aggregator-module"></span><h2>data_juicer.ops.aggregator.entity_attribute_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.entity_attribute_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.entity_attribute_aggregator.</span></span><span class="sig-name descname"><span class="pre">EntityAttributeAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">word_limit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Return conclusion of the given entity’s attribute from some docs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定与`{entity}`相关的一些文档，总结`{entity}`的`{attribute}`。\n要求：\n-</span> <span class="pre">尽量使用原文专有名词\n-</span> <span class="pre">联系上下文，自动忽略上下文不一致的细节错误\n-</span> <span class="pre">只对文档中与`{entity}`的`{attribute}`有关的内容进行总结\n-</span> <span class="pre">字数限制在**{word_limit}字以内**\n-</span> <span class="pre">要求输出格式如下：\n#</span> <span class="pre">{entity}\n##</span> <span class="pre">{attribute}\n...\n{example}'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_EXAMPLE_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-</span> <span class="pre">例如，根据相关文档总结`孙悟空`的`出身背景`，**100字**以内的样例如下：\n`孙悟空`的`出身背景`总结：\n#</span> <span class="pre">孙悟空\n##</span> <span class="pre">出身背景\n号称齐天大圣，花果山水帘洞的美猴王、西行取经队伍中的大师兄。师父是唐僧玄奘，曾拜菩提祖师学艺。亲生父母未知，自石头中孕育而生。自认斗战胜佛，最怕观世音菩萨和紧箍咒。\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'`{entity}`的相关文档：\n{sub_docs}\n\n`{entity}`的`{attribute}`总结：\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\s*{entity}\\s*\\#\\#\\s*{attribute}\\s*(.*?)\\Z'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">word_limit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity: The given entity.
+:param attribute: The given attribute.
+:param input_key: The input field key in the samples. Support for</p>
+<blockquote>
+<div><p>nested keys such as “__dj__stats__.text_len”. It is text_key
+in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>output_key</strong> – The output field key in the samples. Support for
+nested keys such as “__dj__stats__.text_len”. It is same as the
+input_key in default.</p></li>
+<li><p><strong>word_limit</strong> – Prompt the output length.</p></li>
+<li><p><strong>max_token_num</strong> – The max token num of the total tokens of the
+sub documents. Without limitation if it is None.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – The system prompt template.</p></li>
+<li><p><strong>example_prompt</strong> – The example part in the system prompt.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>output_pattern_template</strong> – The output template.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary">
+<span class="sig-name descname"><span class="pre">attribute_summary</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sub_docs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.attribute_summary"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">
+<span id="data-juicer-ops-aggregator-most-relavant-entities-aggregator-module"></span><h2>data_juicer.ops.aggregator.most_relavant_entities_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.most_relavant_entities_aggregator.</span></span><span class="sig-name descname"><span class="pre">MostRelavantEntitiesAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entity_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Extract entities closely related to a given entity from some texts,
+and sort them in descending order of importance.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定与`{entity}`相关的一些文档，总结一些与`{entity}`最为相关的`{entity_type}`。\n要求：\n-</span> <span class="pre">不用包含与{entity}为同一{entity_type}的{entity_type}。\n-</span> <span class="pre">请按照人物的重要性进行排序，**越重要人物在列表越前面**。\n-</span> <span class="pre">你的返回格式如下：\n##</span> <span class="pre">分析\n你对各个{entity_type}与{entity}关联度的分析\n##</span> <span class="pre">列表\n人物1,</span> <span class="pre">人物2,</span> <span class="pre">人物3,</span> <span class="pre">...'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'`{entity}`的相关文档：\n{sub_docs}\n\n与`{entity}`最相关的一些`{entity_type}`：\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\s*列表\\s*(.*?)\\Z'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entity_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity: The given entity.
+:param query_entity_type: The type of queried relavant entities.
+:param input_key: The input field key in the samples. Support for</p>
+<blockquote>
+<div><p>nested keys such as “__dj__stats__.text_len”. It is text_key
+in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>output_key</strong> – The output field key in the samples. Support for
+nested keys such as “__dj__stats__.text_len”. It is same as the
+input_key in default.</p></li>
+<li><p><strong>max_token_num</strong> – The max token num of the total tokens of the
+sub documents. Without limitation if it is None.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – The system prompt template.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>output_pattern</strong> – The output pattern.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">
+<span class="sig-name descname"><span class="pre">query_most_relavant_entities</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sub_docs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.query_most_relavant_entities"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator.nested_aggregator">
+<span id="data-juicer-ops-aggregator-nested-aggregator-module"></span><h2>data_juicer.ops.aggregator.nested_aggregator module<a class="headerlink" href="#module-data_juicer.ops.aggregator.nested_aggregator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.nested_aggregator.</span></span><span class="sig-name descname"><span class="pre">NestedAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sub_doc_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<p>Considering the limitation of input length, nested aggregate
+contents for each given number of samples.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一些文档碎片，将这些文档整合成一个文档总结。\n要求：\n-</span> <span class="pre">总结的长度与文档碎片的平均长度基本一致\n-</span> <span class="pre">不要包含主观看法\n-</span> <span class="pre">注意要尽可能保留文本的专有名词\n-</span> <span class="pre">只输出文档总结不要输出其他内容\n-</span> <span class="pre">参考如下样例：\n文档碎片：\n唐僧师徒四人行至白虎岭，遇上了变化多端的白骨精。\n\n文档碎片：\n白骨精首次变身少女送斋，被孙悟空识破打死，唐僧责怪悟空。\n\n文档碎片：\n妖怪再变老妇寻女，又被悟空击毙，师傅更加不满，念紧箍咒惩罚。\n\n文档碎片：\n不甘心的白骨精第三次化作老公公来诱骗，依旧逃不过金睛火眼。\n\n文档碎片：\n最终，在观音菩萨的帮助下，真相大白，唐僧明白了自己的误解。\n\n\n文档总结：\n唐僧师徒在白虎岭三遇白骨精变化诱惑，悟空屡次识破击毙妖怪却遭误解，最终观音相助真相大白。'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{sub_docs}\n\n文档总结：\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SUB_DOC_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'文档碎片：\n{text}\n'</span></em><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sub_doc_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param input_key: The input field key in the samples. Support for</p>
+<blockquote>
+<div><p>nested keys such as “__dj__stats__.text_len”. It is text_key
+in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>output_key</strong> – The output field key in the samples. Support for
+nested keys such as “__dj__stats__.text_len”. It is same as the
+input_key in default.</p></li>
+<li><p><strong>max_token_num</strong> – The max token num of the total tokens of the
+sub documents. Without limitation if it is None.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – The system prompt.</p></li>
+<li><p><strong>sub_doc_template</strong> – The template for input text in each sample.</p></li>
+<li><p><strong>input_template</strong> – The input template.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">response</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary">
+<span class="sig-name descname"><span class="pre">recursive_summary</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sub_docs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.recursive_summary"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.aggregator">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.aggregator" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.NestedAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">NestedAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sub_doc_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/nested_aggregator.html#NestedAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.NestedAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Considering the limitation of input length, nested aggregate
 contents for each given number of samples.</p>
 <dl class="py attribute">
@@ -164,7 +448,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.EntityAttributeAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">EntityAttributeAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">word_limit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">100</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/entity_attribute_aggregator.html#EntityAttributeAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.EntityAttributeAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Return conclusion of the given entity’s attribute from some docs.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">
@@ -255,7 +539,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.aggregator.</span></span><span class="sig-name descname"><span class="pre">MostRelavantEntitiesAggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entity_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/aggregator/most_relavant_entities_aggregator.html#MostRelavantEntitiesAggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator" title="data_juicer.ops.base_op.Aggregator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Aggregator</span></code></a></p>
 <p>Extract entities closely related to a given entity from some texts,
 and sort them in descending order of importance.</p>
 <dl class="py attribute">
@@ -337,12 +621,16 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
-          <footer>
+          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
+        <a href="data_juicer.ops.html" class="btn btn-neutral float-left" title="data_juicer.ops package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-right" title="data_juicer.ops.common package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+    </div>
 
   <hr/>
 
diff --git a/data_juicer.ops.common.html b/data_juicer.ops.common.html
index c22ec2a5a..32e8824c8 100644
--- a/data_juicer.ops.common.html
+++ b/data_juicer.ops.common.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.common &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.common package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.analysis" href="data_juicer.analysis.html" />
-    <link rel="prev" title="data_juicer.ops.selector" href="data_juicer.ops.selector.html" /> 
+    <link rel="next" title="data_juicer.ops.deduplicator package" href="data_juicer.ops.deduplicator.html" />
+    <link rel="prev" title="data_juicer.ops.aggregator package" href="data_juicer.ops.aggregator.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,27 +42,22 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.common</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.common.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.common package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.common">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -79,7 +74,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.common</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.common package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.common.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -89,8 +85,202 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.common">
-<span id="data-juicer-ops-common"></span><h1>data_juicer.ops.common<a class="headerlink" href="#module-data_juicer.ops.common" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-common-package">
+<h1>data_juicer.ops.common package<a class="headerlink" href="#data-juicer-ops-common-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.common.helper_func">
+<span id="data-juicer-ops-common-helper-func-module"></span><h2>data_juicer.ops.common.helper_func module<a class="headerlink" href="#module-data_juicer.ops.common.helper_func" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">UnionFind</span></span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.find">
+<span class="sig-name descname"><span class="pre">find</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.find"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.find" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.UnionFind.union">
+<span class="sig-name descname"><span class="pre">union</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">x</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">y</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#UnionFind.union"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.UnionFind.union" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.strip">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">strip</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strip_characters</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#strip"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.strip" title="Link to this definition">¶</a></dt>
+<dd><p>Way faster than document.strip(strip_characters) since strip_characters is
+now a set instead of a str, and it contains a lot of elements (all the
+emojis).</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document to be processed</p></li>
+<li><p><strong>strip_characters</strong> – characters used for stripping document</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>stripped document</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_on_whitespace">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_on_whitespace</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_line</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tab</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_on_whitespace"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_on_whitespace" title="Link to this definition">¶</a></dt>
+<dd><p>This method also removes concatenated spaces.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document to be splited</p></li>
+<li><p><strong>new_line</strong> – whether to split document with ‘\n’</p></li>
+<li><p><strong>tag</strong> – whether to split document with ‘\t’</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>word list obtained after splitting document</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_on_newline_tab_whitespace</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_on_newline_tab_whitespace"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace" title="Link to this definition">¶</a></dt>
+<dd><p>This method is used to split the document into different levels of sub-
+sentences.</p>
+<p>First split on “\n”, then on “\t”, then on “ “.
+:param document: document to be splited
+:return: sentence list obtained after splitting document</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">merge_on_whitespace_tab_newline</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sentences</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#merge_on_whitespace_tab_newline"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline" title="Link to this definition">¶</a></dt>
+<dd><p>This method is used to merge different levels of sub-sentences into one
+document. Invert the method split_on_newline_tab_whitespace. Removes
+concatenated separators.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sentences</strong> – sentence list to be merged</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>document obtained after merging sub-sentences</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.words_augmentation">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">words_augmentation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">group_size</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">join_char</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#words_augmentation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.words_augmentation" title="Link to this definition">¶</a></dt>
+<dd><p>Augment words, especially for Chinese (without a space between words) and
+Vietnamese (with a space between syllables).</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>word</strong> – word list to be augmented</p></li>
+<li><p><strong>group_size</strong> – the size of word groups that need to be merged</p></li>
+<li><p><strong>join_char</strong> – characters to be added between word group</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>word list after augment</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.get_words_from_document">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">get_words_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">token_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_line</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tab</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_words_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.get_words_from_document" title="Link to this definition">¶</a></dt>
+<dd><p>Get words from a document. Useful to compute ratios, like the
+stopwords ratio.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document that need to split words.</p></li>
+<li><p><strong>token_func</strong> – function of tokenizer, if specified, the function
+will be used for split document into different tokens.</p></li>
+<li><p><strong>new_line</strong> – whether to use ‘\n’ to split words.</p></li>
+<li><p><strong>tab</strong> – whether to use ‘\t’ to split words.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>word list obtained from document</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.words_refinement">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">words_refinement</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_case</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strip_chars</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">''</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#words_refinement"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.words_refinement" title="Link to this definition">¶</a></dt>
+<dd><p>Refine split words. Non reversible since the document is split on
+multiple characters, words are stripped of special characters and
+characters are converted to lower case.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>words</strong> – the word list to be augmented</p></li>
+<li><p><strong>lower_case</strong> – whether to convert word to lowercase</p></li>
+<li><p><strong>strip_chars</strong> – chars that need to be stripped in words</p></li>
+<li><p><strong>use_words_aug</strong> – whether to use word augmentation</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – the size of word groups that need to
+be merged</p></li>
+<li><p><strong>words_aug_join_char</strong> – characters to be added between word
+group</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>refined words or word list</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.get_sentences_from_document">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">get_sentences_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_sentences_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.get_sentences_from_document" title="Link to this definition">¶</a></dt>
+<dd><p>Get sentences from a document.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>document</strong> – document that need to split sentences</p></li>
+<li><p><strong>model_func</strong> – function of sentence model, if specified, the
+function will be used for spliting document into different
+sentences.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>document with the sentences separated by ‘\n’</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.common.helper_func.split_text_by_punctuation">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.helper_func.</span></span><span class="sig-name descname"><span class="pre">split_text_by_punctuation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#split_text_by_punctuation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.helper_func.split_text_by_punctuation" title="Link to this definition">¶</a></dt>
+<dd><p>Split text by any zh and en punctuation</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>text</strong> – text to be splitted.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sub texts splitted by any zh and en punctuation</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.common.special_characters">
+<span id="data-juicer-ops-common-special-characters-module"></span><h2>data_juicer.ops.common.special_characters module<a class="headerlink" href="#module-data_juicer.ops.common.special_characters" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.common">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.common" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.ops.common.get_sentences_from_document">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.ops.common.</span></span><span class="sig-name descname"><span class="pre">get_sentences_from_document</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">document</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_func</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/common/helper_func.html#get_sentences_from_document"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.common.get_sentences_from_document" title="Link to this definition">¶</a></dt>
@@ -252,14 +442,15 @@
 </dl>
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-left" title="data_juicer.ops.selector" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.analysis.html" class="btn btn-neutral float-right" title="data_juicer.analysis" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.aggregator.html" class="btn btn-neutral float-left" title="data_juicer.ops.aggregator package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-right" title="data_juicer.ops.deduplicator package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.deduplicator.html b/data_juicer.ops.deduplicator.html
index 1b8f8eaaf..f5d0b2059 100644
--- a/data_juicer.ops.deduplicator.html
+++ b/data_juicer.ops.deduplicator.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.deduplicator &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.deduplicator package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.selector" href="data_juicer.ops.selector.html" />
-    <link rel="prev" title="data_juicer.ops.mapper" href="data_juicer.ops.mapper.html" /> 
+    <link rel="next" title="data_juicer.ops.filter package" href="data_juicer.ops.filter.html" />
+    <link rel="prev" title="data_juicer.ops.common package" href="data_juicer.ops.common.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,27 +42,29 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.deduplicator</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.ImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.RayDocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.RayImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.RayVideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.deduplicator.VideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.deduplicator">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -79,7 +81,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.deduplicator</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.deduplicator package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.deduplicator.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -89,12 +92,543 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.deduplicator">
-<span id="data-juicer-ops-deduplicator"></span><h1>data_juicer.ops.deduplicator<a class="headerlink" href="#module-data_juicer.ops.deduplicator" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-deduplicator-package">
+<h1>data_juicer.ops.deduplicator package<a class="headerlink" href="#data-juicer-ops-deduplicator-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.deduplicator.document_deduplicator">
+<span id="data-juicer-ops-deduplicator-document-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
+<p>Using md5 hash to deduplicate samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_non_character</strong> – Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute md5 hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with md5 hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.document_minhash_deduplicator">
+<span id="data-juicer-ops-deduplicator-document-minhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_minhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_minhash_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">sha1_hash32</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#sha1_hash32"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32" title="Link to this definition">¶</a></dt>
+<dd><p>Directly taken from datasketch package to avoid dependency.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>data</strong> (<em>bytes</em>)</p>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p>int</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">optimal_param</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_perm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">false_positive_weight</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">false_negative_weight</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#optimal_param"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param" title="Link to this definition">¶</a></dt>
+<dd><p>Compute the optimal <cite>MinHashLSH</cite> parameter that minimizes the weighted sum
+of probabilities of false positive and false negative, taken from
+datasketch.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>threshold</strong> – float. The threshold for similarity</p></li>
+<li><p><strong>num_perm</strong> – int. The number of permutations</p></li>
+<li><p><strong>false_positive_weight</strong> – float. The weight of false positive</p></li>
+<li><p><strong>false_negative_weight</strong> – float. The weight of false negative</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Tuple[int, int]. The optimal <cite>b</cite> and <cite>r</cite> parameters. The number of
+bands, and the number of rows per band respectively</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_minhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using MinHashLSH.</p>
+<p>Different from simhash, minhash is stored as bytes, so they won’t be
+kept in the final dataset.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – tokenization method for sample texts. It
+should be one of [space, punctuation, character,
+sentencepiece]. For English-like languages, we recommend
+to use ‘space’, for Chinese-like languages, we recommend
+to use ‘character’, and for multiple languages, we recommend
+to use ‘sentencepiece’. If using ‘sentencepiece’, please
+provided the model path in the ‘tokenizer_model’ field.</p></li>
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing minhash</p></li>
+<li><p><strong>num_permutations</strong> – number of permutations in minhash
+computing</p></li>
+<li><p><strong>jaccard_threshold</strong> – the min jaccard similarity threshold
+in near-duplicate detection. When the jaccard similarity of
+two sample texts is &gt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication</p></li>
+<li><p><strong>num_bands</strong> – number of bands in LSH. Default it’s None, and
+it will be determined by an optimal params computation
+algorithm by minimize the weighted sum of probs of False
+Positives and False Negatives</p></li>
+<li><p><strong>num_rows_per_band</strong> – number of rows in each band in LSH.
+Default it’s None, and it will be determined by an optimal
+params computation algorithm</p></li>
+<li><p><strong>tokenizer_model</strong> – path for the sentencepiece model, used for
+sentencepiece tokenization.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute minhash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with minhash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.document_simhash_deduplicator">
+<span id="data-juicer-ops-deduplicator-document-simhash-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.document_simhash_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.document_simhash_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.document_simhash_deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentSimhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using SimHash.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method :param tokenization: tokenization method for
+sample texts.</p>
+<p>It should be one of [space, punctuation, character]. For
+English-like languages, we recommend to use ‘space’. And for
+Chinese-like languages, we recommend to use ‘character’</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>window_size</strong> – window size of shingling</p></li>
+<li><p><strong>lowercase</strong> – whether to convert text to lower case first</p></li>
+<li><p><strong>ignore_pattern</strong> – whether to ignore sub-strings with
+specific pattern when computing simhash</p></li>
+<li><p><strong>num_blocks</strong> – number of blocks in simhash computing</p></li>
+<li><p><strong>hamming_distance</strong> – the max hamming distance threshold in
+near-duplicate detection. When the hamming distance of two
+sample texts is &lt;= this threshold, they are regarded as
+similar samples and this op will only keep one of them after
+deduplication. This threshold should be always less than
+num_blocks</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute simhash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with simhash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.image_deduplicator">
+<span id="data-juicer-ops-deduplicator-image-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.image_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.image_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.get_hash_method">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">get_hash_method</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#get_hash_method"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">ImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of images between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>method</strong> – hash method for image</p></li>
+<li><p><strong>consider_text</strong> – whether to consider text hash together with image
+hash when applying deduplication.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_basic_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-basic-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_basic_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_basic_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_basic_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayBasicDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>A basic exact matching deduplicator for RAY.
+Although its functionality is deduplication,
+it is implemented as Filter sub-class.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">
+<span class="sig-name descname"><span class="pre">EMPTY_HASH_VALUE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'EMPTY'</span></em><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param redis_host: the hostname of redis server
+:param redis_port: the port of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_document_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-document-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_document_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_document_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_document_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayDocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param redis_host: the hostname of redis server
+:param redis_port: the port of redis server
+:param lowercase: Whether to convert sample text to lower case
+:param ignore_non_character: Whether to ignore non-alphabet
+characters, including whitespaces, digits, and punctuations
+:param args: extra args
+:param kwargs: extra args.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_image_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-image-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_image_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_image_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">get_hash_method</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#get_hash_method"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_image_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of images between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param redis_host: the hostname of redis server
+:param redis_port: the port of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.ray_video_deduplicator">
+<span id="data-juicer-ops-deduplicator-ray-video-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.ray_video_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.ray_video_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.ray_video_deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayVideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of videos between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.
+:param redis_host: the hostname of redis server
+:param redis_port: the port of redis server
+:param args: extra args
+:param kwargs: extra args</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash">
+<span class="sig-name descname"><span class="pre">calculate_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator.calculate_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate hash value for the sample.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator.video_deduplicator">
+<span id="data-juicer-ops-deduplicator-video-deduplicator-module"></span><h2>data_juicer.ops.deduplicator.video_deduplicator module<a class="headerlink" href="#module-data_juicer.ops.deduplicator.video_deduplicator" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.video_deduplicator.</span></span><span class="sig-name descname"><span class="pre">VideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<p>Deduplicator to deduplicate samples at document-level using exact matching
+of videos between documents.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>consider_text</strong> – whether to consider text hash together with video
+hash when applying deduplication.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.deduplicator">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.deduplicator" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_deduplicator.html#DocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
 <p>Using md5 hash to deduplicate samples.</p>
 <dl class="py method">
@@ -151,7 +685,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentMinhashDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentMinhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_permutations</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">256</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">jaccard_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_bands</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_rows_per_band</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_minhash_deduplicator.html#DocumentMinhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using MinHashLSH.</p>
 <p>Different from simhash, minhash is stored as bytes, so they won’t be
 kept in the final dataset.</p>
@@ -231,7 +765,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentSimhashDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">DocumentSimhashDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'space'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">window_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_blocks</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hamming_distance</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">4</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/document_simhash_deduplicator.html#DocumentSimhashDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using SimHash.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__">
@@ -297,7 +831,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.ImageDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">ImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/image_deduplicator.html#ImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.ImageDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching
 of images between documents.</p>
 <dl class="py method">
@@ -354,7 +888,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayBasicDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayBasicDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_basic_deduplicator.html#RayBasicDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>A basic exact matching deduplicator for RAY.
 Although its functionality is deduplication,
 it is implemented as Filter sub-class.</p>
@@ -417,7 +951,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayDocumentDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayDocumentDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_non_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_document_deduplicator.html#RayDocumentDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayDocumentDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__">
@@ -443,7 +977,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayImageDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayImageDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'phash'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_image_deduplicator.html#RayImageDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayImageDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching
 of images between documents.</p>
 <dl class="py method">
@@ -467,7 +1001,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.RayVideoDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">RayVideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">redis_host</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'localhost'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redis_port</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">6380</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/ray_video_deduplicator.html#RayVideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.RayVideoDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator" title="data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching
 of videos between documents.</p>
 <dl class="py method">
@@ -491,7 +1025,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.deduplicator.VideoDeduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.deduplicator.</span></span><span class="sig-name descname"><span class="pre">VideoDeduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">consider_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/deduplicator/video_deduplicator.html#VideoDeduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.deduplicator.VideoDeduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator" title="data_juicer.ops.base_op.Deduplicator"><code class="xref py py-class docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></p>
 <p>Deduplicator to deduplicate samples at document-level using exact matching
 of videos between documents.</p>
 <dl class="py method">
@@ -544,14 +1078,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-left" title="data_juicer.ops.mapper" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-right" title="data_juicer.ops.selector" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-left" title="data_juicer.ops.common package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-right" title="data_juicer.ops.filter package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.filter.html b/data_juicer.ops.filter.html
index 36eb8ae2f..e87e46847 100644
--- a/data_juicer.ops.filter.html
+++ b/data_juicer.ops.filter.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.filter &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.filter package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.mapper" href="data_juicer.ops.mapper.html" />
-    <link rel="prev" title="data_juicer.ops" href="data_juicer.ops.html" /> 
+    <link rel="next" title="data_juicer.ops.grouper package" href="data_juicer.ops.grouper.html" />
+    <link rel="prev" title="data_juicer.ops.deduplicator package" href="data_juicer.ops.deduplicator.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,62 +42,64 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.filter</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.AudioDurationFilter"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.AudioNMFSNRFilter"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.AudioSizeFilter"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageFaceCountFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageFaceRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageNSFWFilter"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImagePairSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageShapeFilter"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageSizeFilter"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageTextMatchingFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.ImageWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.PhraseGroundingRecallFilter"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.TextActionFilter"><code class="docutils literal notranslate"><span class="pre">TextActionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.TextEntityDependencyFilter"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoDurationFilter"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoFramesTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoMotionScoreFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoMotionScoreRaftFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoNSFWFilter"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoResolutionFilter"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoTaggingFromFramesFilter"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.VideoWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.filter.WordsNumFilter"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.filter">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -114,7 +116,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.filter</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.filter package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.filter.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -124,12 +127,2838 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.filter">
-<span id="data-juicer-ops-filter"></span><h1>data_juicer.ops.filter<a class="headerlink" href="#module-data_juicer.ops.filter" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-filter-package">
+<h1>data_juicer.ops.filter package<a class="headerlink" href="#data-juicer-ops-filter-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.filter.alphanumeric_filter">
+<span id="data-juicer-ops-filter-alphanumeric-filter-module"></span><h2>data_juicer.ops.filter.alphanumeric_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.alphanumeric_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.alphanumeric_filter.</span></span><span class="sig-name descname"><span class="pre">AlphanumericFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with alphabet/numeric ratio within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tokenization</strong> – Whether to count the ratio of alphanumeric
+to the total number of tokens. if tokenization=False, it
+will count the ratio of alphanumeric to the total number of
+characters.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in alphanumeric op,
+samples will be filtered if their alphabet/numeric ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.audio_duration_filter">
+<span id="data-juicer-ops-filter-audio-duration-filter-module"></span><h2>data_juicer.ops.filter.audio_duration_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.audio_duration_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_duration_filter.</span></span><span class="sig-name descname"><span class="pre">AudioDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audios’ durations are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_duration</strong> – The min audio duration to keep samples in seconds.
+It’s 0 by default.</p></li>
+<li><p><strong>max_duration</strong> – The max audio duration to keep samples in seconds.
+It’s sys.maxsize by default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.audio_nmf_snr_filter">
+<span id="data-juicer-ops-filter-audio-nmf-snr-filter-module"></span><h2>data_juicer.ops.filter.audio_nmf_snr_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.audio_nmf_snr_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_nmf_snr_filter.</span></span><span class="sig-name descname"><span class="pre">separate_signal_noise</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">audio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">n_components</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">500</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#separate_signal_noise"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_nmf_snr_filter.</span></span><span class="sig-name descname"><span class="pre">compute_nmf_snr</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">audio_data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">500</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#compute_nmf_snr"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_nmf_snr_filter.</span></span><span class="sig-name descname"><span class="pre">AudioNMFSNRFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audios’ SNRs (computed based on NMF) are within
+a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_snr</strong> – The min audio SNR to keep samples in dB. It’s 0 by
+default.</p></li>
+<li><p><strong>max_snr</strong> – The max audio SNR to keep samples in dB. It’s
+sys.maxsize by default.</p></li>
+<li><p><strong>nmf_iter_num</strong> – The max number of iterations to run NMF. It’s 500
+in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.audio_size_filter">
+<span id="data-juicer-ops-filter-audio-size-filter-module"></span><h2>data_juicer.ops.filter.audio_size_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.audio_size_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.audio_size_filter.</span></span><span class="sig-name descname"><span class="pre">AudioSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose audio size (in bytes/kb/MB/…) within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_size</strong> – The min audio size to keep samples.  set to be “0” by
+default for no size constraint</p></li>
+<li><p><strong>max_size</strong> – The max audio size to keep samples.  set to be
+“1Tb” by default, an approximate for un-limited case</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all audios. ‘any’: keep this sample if any audios meet the
+condition. ‘all’: keep this sample only if all audios meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.average_line_length_filter">
+<span id="data-juicer-ops-filter-average-line-length-filter-module"></span><h2>data_juicer.ops.filter.average_line_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.average_line_length_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.average_line_length_filter.</span></span><span class="sig-name descname"><span class="pre">AverageLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with average line length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their average line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their average line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.character_repetition_filter">
+<span id="data-juicer-ops-filter-character-repetition-filter-module"></span><h2>data_juicer.ops.filter.character_repetition_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.character_repetition_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.character_repetition_filter.</span></span><span class="sig-name descname"><span class="pre">CharacterRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with char-level n-gram repetition ratio within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>rep_len</strong> – Repetition length for char-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their char-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.flagged_words_filter">
+<span id="data-juicer-ops-filter-flagged-words-filter-module"></span><h2>data_juicer.ops.filter.flagged_words_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.flagged_words_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.flagged_words_filter.</span></span><span class="sig-name descname"><span class="pre">FlaggedWordFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with flagged-word ratio less than a specific max
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider flagged words in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – Whether to use model to tokenize documents</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op.</p></li>
+<li><p><strong>flagged_words_dir</strong> – The directory storing the
+flagged_words file(s) whose name includes “flagged_words”
+and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_aesthetics_filter">
+<span id="data-juicer-ops-filter-image-aesthetics-filter-module"></span><h2>data_juicer.ops.filter.image_aesthetics_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_aesthetics_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_aesthetics_filter.</span></span><span class="sig-name descname"><span class="pre">ImageAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with aesthetics scores within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_scorer_model</strong> – Huggingface model name for the aesthetics
+predictor. By default, we will use
+‘shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE’,
+refer to pypi.org/project/simple-aesthetics-predictor</p></li>
+<li><p><strong>min_score</strong> – Min score for the predicted aesthetics in an image.</p></li>
+<li><p><strong>max_score</strong> – Max score for the predicted aesthetics in an image.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_aspect_ratio_filter">
+<span id="data-juicer-ops-filter-image-aspect-ratio-filter-module"></span><h2>data_juicer.ops.filter.image_aspect_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_aspect_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_aspect_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">ImageAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with image aspect ratio within a specific range.
+AspectRatio = W / H.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min aspect ratio to keep samples.</p></li>
+<li><p><strong>max_ratio</strong> – The max aspect ratio to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_face_count_filter">
+<span id="data-juicer-ops-filter-image-face-count-filter-module"></span><h2>data_juicer.ops.filter.image_face_count_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_face_count_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_face_count_filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceCountFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with the number of faces within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>min_face_count</strong> – Minimum number of faces required for samples.</p></li>
+<li><p><strong>max_face_count</strong> – Maximum number of faces required for samples.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_face_ratio_filter">
+<span id="data-juicer-ops-filter-image-face-ratio-filter-module"></span><h2>data_juicer.ops.filter.image_face_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_face_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_face_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with face area ratios within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>min_ratio</strong> – Min ratio for the largest face area in an image.</p></li>
+<li><p><strong>max_ratio</strong> – Max ratio for the largest face area in an image.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_nsfw_filter">
+<span id="data-juicer-ops-filter-image-nsfw-filter-module"></span><h2>data_juicer.ops.filter.image_nsfw_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_nsfw_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_nsfw_filter.</span></span><span class="sig-name descname"><span class="pre">ImageNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose images have low nsfw scores.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_nsfw_model</strong> – nsfw detection model name on huggingface.</p></li>
+<li><p><strong>score_threshold</strong> – the nsfw score threshold for samples.
+range from 0 to 1. Samples with nsfw score less than this threshold
+will be kept.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_pair_similarity_filter">
+<span id="data-juicer-ops-filter-image-pair-similarity-filter-module"></span><h2>data_juicer.ops.filter.image_pair_similarity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_pair_similarity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_pair_similarity_filter.</span></span><span class="sig-name descname"><span class="pre">ImagePairSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep image pairs with similarities between images
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max similarity to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_shape_filter">
+<span id="data-juicer-ops-filter-image-shape-filter-module"></span><h2>data_juicer.ops.filter.image_shape_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_shape_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_shape_filter.</span></span><span class="sig-name descname"><span class="pre">ImageShapeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with image shape (w, h) within specific ranges.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – The min width to keep samples.</p></li>
+<li><p><strong>max_width</strong> – The max width to keep samples.</p></li>
+<li><p><strong>min_height</strong> – The min height to keep samples.</p></li>
+<li><p><strong>max_height</strong> – The max height to keep samples.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_size_filter">
+<span id="data-juicer-ops-filter-image-size-filter-module"></span><h2>data_juicer.ops.filter.image_size_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_size_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_size_filter.</span></span><span class="sig-name descname"><span class="pre">ImageSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose image size (in Bytes/KB/MB/…) within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_size</strong> – The min image size to keep samples.  set to be “0” by
+default for no size constraint</p></li>
+<li><p><strong>max_size</strong> – The max image size to keep samples.  set to be
+“1TB” by default, an approximate for un-limited case</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_text_matching_filter">
+<span id="data-juicer-ops-filter-image-text-matching-filter-module"></span><h2>data_juicer.ops.filter.image_text_matching_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_text_matching_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_text_matching_filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextMatchingFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those matching score between image and text
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_blip</strong> – blip model name on huggingface to compute
+the matching score between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min matching score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max matching score to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_text_similarity_filter">
+<span id="data-juicer-ops-filter-image-text-similarity-filter-module"></span><h2>data_juicer.ops.filter.image_text_similarity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_text_similarity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_text_similarity_filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those similarities between image and text
+within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between image and text.</p></li>
+<li><p><strong>min_score</strong> – The min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The max similarity to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.image_watermark_filter">
+<span id="data-juicer-ops-filter-image-watermark-filter-module"></span><h2>data_juicer.ops.filter.image_watermark_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.image_watermark_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.image_watermark_filter.</span></span><span class="sig-name descname"><span class="pre">ImageWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose images have no watermark with high
+probability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_watermark_model</strong> – watermark detection model name on
+huggingface.</p></li>
+<li><p><strong>prob_threshold</strong> – the predicted watermark probability threshold
+for samples. range from 0 to 1. Samples with watermark probability
+less than this threshold will be kept.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.language_id_score_filter">
+<span id="data-juicer-ops-filter-language-id-score-filter-module"></span><h2>data_juicer.ops.filter.language_id_score_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.language_id_score_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.language_id_score_filter.</span></span><span class="sig-name descname"><span class="pre">LanguageIDScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples in a specific language with confidence score
+larger than a specific min value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Samples in which languages to keep.</p></li>
+<li><p><strong>min_score</strong> – The min language identification confidence
+scores of samples to keep.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.maximum_line_length_filter">
+<span id="data-juicer-ops-filter-maximum-line-length-filter-module"></span><h2>data_juicer.ops.filter.maximum_line_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.maximum_line_length_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.maximum_line_length_filter.</span></span><span class="sig-name descname"><span class="pre">MaximumLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with maximum line length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min filter length in this op, samples will
+be filtered if their maximum line length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max filter length in this op, samples will
+be filtered if their maximum line length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.perplexity_filter">
+<span id="data-juicer-ops-filter-perplexity-filter-module"></span><h2>data_juicer.ops.filter.perplexity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.perplexity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.perplexity_filter.</span></span><span class="sig-name descname"><span class="pre">PerplexityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with perplexity score less than a specific max
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Compute perplexity for samples in which language.</p></li>
+<li><p><strong>max_ppl</strong> – The max filter perplexity in this op, samples
+will be filtered if their perplexity exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.phrase_grounding_recall_filter">
+<span id="data-juicer-ops-filter-phrase-grounding-recall-filter-module"></span><h2>data_juicer.ops.filter.phrase_grounding_recall_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.phrase_grounding_recall_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">find_noun_phrases</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">caption</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#find_noun_phrases"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">remove_punctuation</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#remove_punctuation"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">run_ner</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">caption</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#run_ner"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.phrase_grounding_recall_filter.</span></span><span class="sig-name descname"><span class="pre">PhraseGroundingRecallFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose locating recalls of phrases extracted
+from text in the images are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_owlvit</strong> – Owl-ViT model name on huggingface to locate the
+phrases extracted from the text.</p></li>
+<li><p><strong>min_recall</strong> – The min phrase grounding recall to keep samples.</p></li>
+<li><p><strong>max_recall</strong> – The max phrase grounding recall to keep samples.</p></li>
+<li><p><strong>horizontal_flip</strong> – Flip image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – Flip image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>iou_thr</strong> – the IoU threshold for NMS-like post-process. If two
+predicted bboxes are overlap with an IoU larger than this
+threshold, the bbox with less confidence will be removed. Default:
+0.5.</p></li>
+<li><p><strong>large_area_ratio_thr</strong> – the area ratio threshold for filtering out
+those large predicted bboxes. If the area of a predicted bbox
+accounts for more than this ratio threshold of the whole image
+area, this bbox will be removed. Default: 0.95.</p></li>
+<li><p><strong>conf_thr</strong> – the confidence score threshold for removing
+low-confidence bboxes. If the confidence score of a predicted bbox
+is lower than the threshold, this bbox will be removed. Default: 0.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.special_characters_filter">
+<span id="data-juicer-ops-filter-special-characters-filter-module"></span><h2>data_juicer.ops.filter.special_characters_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.special_characters_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.special_characters_filter.</span></span><span class="sig-name descname"><span class="pre">SpecialCharactersFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with special-char ratio within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their special-char ratio is below this
+parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their special-char ratio exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.specified_field_filter">
+<span id="data-juicer-ops-filter-specified-field-filter-module"></span><h2>data_juicer.ops.filter.specified_field_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.specified_field_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_field_filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter based on specified field information.</p>
+<p>If the specified field information in the sample is not within the
+specified target value, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>target_value</strong> – The range of specified field information
+corresponding to the samples that need to be retained.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.specified_numeric_field_filter">
+<span id="data-juicer-ops-filter-specified-numeric-field-filter-module"></span><h2>data_juicer.ops.filter.specified_numeric_field_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.specified_numeric_field_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.is_number">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_numeric_field_filter.</span></span><span class="sig-name descname"><span class="pre">is_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#is_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.is_number" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.specified_numeric_field_filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedNumericFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter based on specified numeric field information.</p>
+<p>If the specified numeric information in the sample is not within the
+specified range, the sample will be filtered.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Filter based on the specified numeric value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>min_value</strong> – The min filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value is below this parameter.</p></li>
+<li><p><strong>max_value</strong> – The max filter value in SpecifiedNumericField
+op, samples will be filtered if their specified numeric
+field value exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.stopwords_filter">
+<span id="data-juicer-ops-filter-stopwords-filter-module"></span><h2>data_juicer.ops.filter.stopwords_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.stopwords_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.stopwords_filter.</span></span><span class="sig-name descname"><span class="pre">StopWordsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with stopword ratio larger than a specific min
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – Consider stopwords in what language. If lang ==
+“all”, we will adopt the one merged from all the available
+languages</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op.</p></li>
+<li><p><strong>stopwords_dir</strong> – The directory storing the stopwords
+file(s) whose name includes “stopwords” and in json format</p></li>
+<li><p><strong>use_words_aug</strong> – Whether to augment words, especially for
+Chinese and Vietnamese</p></li>
+<li><p><strong>words_aug_group_sizes</strong> – The group size of words to augment</p></li>
+<li><p><strong>words_aug_join_char</strong> – The join char between words to
+augment</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.suffix_filter">
+<span id="data-juicer-ops-filter-suffix-filter-module"></span><h2>data_juicer.ops.filter.suffix_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.suffix_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.suffix_filter.</span></span><span class="sig-name descname"><span class="pre">SuffixFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with specified suffix.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>suffixes</strong> – the suffix of text that will be keep.
+For example: ‘.txt’, ‘txt’ or [‘txt’, ‘.pdf’, ‘docx’]</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.text_action_filter">
+<span id="data-juicer-ops-filter-text-action-filter-module"></span><h2>data_juicer.ops.filter.text_action_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_action_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_action_filter.</span></span><span class="sig-name descname"><span class="pre">TextActionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep texts those contain actions in the text.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language of the text in the samples. ‘en’ for detection of
+actions in English and ‘zh’ for detection of actions in Chinese.</p></li>
+<li><p><strong>mini_action_num</strong> – The min action number in the filtering. samples
+will be filtered if their action number in the text is below this
+parameter.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.text_entity_dependency_filter">
+<span id="data-juicer-ops-filter-text-entity-dependency-filter-module"></span><h2>data_juicer.ops.filter.text_entity_dependency_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_entity_dependency_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_entity_dependency_filter.</span></span><span class="sig-name descname"><span class="pre">TextEntityDependencyFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Identify the entities in the text which are independent with other token,
+and filter them. The text containing no entities will be omitted.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language of the text in the samples. ‘en’ for detection of
+entities in English and ‘zh’ for detection of entities in Chinese.</p></li>
+<li><p><strong>mini_dependency_num</strong> – The min token number in the filtering.
+Objects is independent if their number of edges in the dependency
+tree is below this parameter.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy.
+‘any’: keep this sample if any objet is dependent. ‘all’: keep this
+sample only if all images are dependent.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.text_length_filter">
+<span id="data-juicer-ops-filter-text-length-filter-module"></span><h2>data_juicer.ops.filter.text_length_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.text_length_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.text_length_filter.</span></span><span class="sig-name descname"><span class="pre">TextLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total text length within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min text length in the filtering. samples
+will be filtered if their text length is below this
+parameter.</p></li>
+<li><p><strong>max_len</strong> – The max text length in the filtering. samples
+will be filtered if their text length exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.token_num_filter">
+<span id="data-juicer-ops-filter-token-num-filter-module"></span><h2>data_juicer.ops.filter.token_num_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.token_num_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.token_num_filter.</span></span><span class="sig-name descname"><span class="pre">TokenNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total token number within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_tokenizer</strong> – the tokenizer name of Hugging Face tokenizers.</p></li>
+<li><p><strong>min_num</strong> – The min filter token number in this op, samples
+will be filtered if their token number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter token number in this op, samples
+will be filtered if their token number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_aesthetics_filter">
+<span id="data-juicer-ops-filter-video-aesthetics-filter-module"></span><h2>data_juicer.ops.filter.video_aesthetics_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_aesthetics_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_aesthetics_filter.</span></span><span class="sig-name descname"><span class="pre">VideoAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep data samples with aesthetics scores for specified frames
+in the videos within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_scorer_model</strong> – Huggingface model name for the aesthetics
+predictor. By default, we will use
+‘shunk031/aesthetics-predictor-v2-sac-logos-ava1-l14-linearMSE’,
+refer to pypi.org/project/simple-aesthetics-predictor</p></li>
+<li><p><strong>min_score</strong> – Min score for the predicted aesthetics in a video.</p></li>
+<li><p><strong>max_score</strong> – Max score for the predicted aesthetics in a video.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames and the latter one extract
+specified number of frames uniformly from the video.
+Default: “uniform” with frame_num=3, considering that the number of
+keyframes can be large while their difference is usually small
+in terms of their aesthetics.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>any_or_all</strong> – Keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one sample corresponds to
+multiple frames, must be one of [‘avg’,’max’, ‘min’].
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – Extra positional arguments.</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_aspect_ratio_filter">
+<span id="data-juicer-ops-filter-video-aspect-ratio-filter-module"></span><h2>data_juicer.ops.filter.video_aspect_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_aspect_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_aspect_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">VideoAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with video aspect ratio within a specific range.
+AspectRatio = W / H.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The minimum aspect ratio to keep samples,
+supported format is a string, such as “9:21” or “9/21”.</p></li>
+<li><p><strong>max_ratio</strong> – The maximum aspect ratio to keep samples,
+supported format is a string, such as “21:9” or “21/9”.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_duration_filter">
+<span id="data-juicer-ops-filter-video-duration-filter-module"></span><h2>data_juicer.ops.filter.video_duration_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_duration_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_duration_filter.</span></span><span class="sig-name descname"><span class="pre">VideoDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose videos’ durations are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_duration</strong> – The min video duration to keep samples in seconds.
+It’s 0 by default.</p></li>
+<li><p><strong>max_duration</strong> – The max video duration to keep samples in seconds.
+It’s sys.maxsize by default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_frames_text_similarity_filter">
+<span id="data-juicer-ops-filter-video-frames-text-similarity-filter-module"></span><h2>data_juicer.ops.filter.video_frames_text_similarity_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_frames_text_similarity_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_frames_text_similarity_filter.</span></span><span class="sig-name descname"><span class="pre">VideoFramesTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples those similarities between sampled video frame
+images and text within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_clip</strong> – clip model name on huggingface to compute
+the similarity between frame image and text. It’s kind of
+language-related. For example, for Chinese datasets, ChineseCLIP
+might be a better choice.</p></li>
+<li><p><strong>min_score</strong> – the min similarity to keep samples.</p></li>
+<li><p><strong>max_score</strong> – the max similarity to keep samples.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame image horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame image vertically (top to bottom).</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode when one text corresponds to
+multiple video frame images in a chunk.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_motion_score_filter">
+<span id="data-juicer-ops-filter-video-motion-score-filter-module"></span><h2>data_juicer.ops.filter.video_motion_score_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_motion_score_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoCapture">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_motion_score_filter.</span></span><span class="sig-name descname"><span class="pre">VideoCapture</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoCapture"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoCapture" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_motion_score_filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with video motion scores within a specific range. The
+Farneback’s algorith from OpenCV is used to compute dense optical flow.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_score</strong> – The minimum motion score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The maximum motion score to keep samples.</p></li>
+<li><p><strong>sampling_fps</strong> – The sampling rate in frames_per_second for
+optical flow calculations.</p></li>
+<li><p><strong>size</strong> – Resize frames before computing optical flow. If size is a
+sequence like (h, w), frame size will be matched to this. If size
+is an int, smaller edge of frames will be matched to this number.
+i.e, if height &gt; width, then frame will be rescaled to (size *
+height / width, size). Default <cite>None</cite> to keep the original size.</p></li>
+<li><p><strong>max_size</strong> – The maximum allowed for the longer edge of resized
+frames. If the longer edge of frames is greater than max_size after
+being resized according to size, size will be overruled so that the
+longer edge is equal to max_size. As a result, the smaller edge may
+be shorter than size. This is only supported if size is an int.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+<li><p><strong>relative</strong> – If <cite>True</cite>, the optical flow magnitude is normalized to
+a [0, 1] range, relative to the frame’s diagonal length.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model">
+<span class="sig-name descname"><span class="pre">setup_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.setup_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow">
+<span class="sig-name descname"><span class="pre">compute_flow</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_frame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">curr_frame</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.compute_flow"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_motion_score_raft_filter">
+<span id="data-juicer-ops-filter-video-motion-score-raft-filter-module"></span><h2>data_juicer.ops.filter.video_motion_score_raft_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_motion_score_raft_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_motion_score_raft_filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreRaftFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter" title="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="xref py py-class docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></p>
+<p>Filter to keep samples with video motion scores within a specified range.
+This operator utilizes the RAFT (Recurrent All-Pairs Field Transforms)
+model from torchvision to predict optical flow between video frames.</p>
+<p>For further details, refer to the official torchvision documentation:
+<a class="reference external" href="https://pytorch.org/vision/main/models/raft.html">https://pytorch.org/vision/main/models/raft.html</a></p>
+<p>The original paper on RAFT is available here:
+<a class="reference external" href="https://arxiv.org/abs/2003.12039">https://arxiv.org/abs/2003.12039</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_score</strong> – The minimum motion score to keep samples.</p></li>
+<li><p><strong>max_score</strong> – The maximum motion score to keep samples.</p></li>
+<li><p><strong>sampling_fps</strong> – The sampling rate in frames_per_second for
+optical flow calculations.</p></li>
+<li><p><strong>size</strong> – Resize frames before computing optical flow. If size is a
+sequence like (h, w), frame size will be matched to this. If size
+is an int, smaller edge of frames will be matched to this number.
+i.e, if height &gt; width, then frame will be rescaled to (size *
+height / width, size). Default <cite>None</cite> to keep the original size.</p></li>
+<li><p><strong>max_size</strong> – The maximum allowed for the longer edge of resized
+frames. If the longer edge of frames is greater than max_size after
+being resized according to size, size will be overruled so that the
+longer edge is equal to max_size. As a result, the smaller edge may
+be shorter than size. This is only supported if size is an int.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+<li><p><strong>relative</strong> – If <cite>True</cite>, the optical flow magnitude is normalized to
+a [0, 1] range, relative to the frame’s diagonal length.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model">
+<span class="sig-name descname"><span class="pre">setup_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.setup_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow">
+<span class="sig-name descname"><span class="pre">compute_flow</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_frame</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">curr_frame</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter.compute_flow"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_nsfw_filter">
+<span id="data-juicer-ops-filter-video-nsfw-filter-module"></span><h2>data_juicer.ops.filter.video_nsfw_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_nsfw_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_nsfw_filter.</span></span><span class="sig-name descname"><span class="pre">VideoNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos have low nsfw scores.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_nsfw_model</strong> – nsfw detection model name on huggingface.</p></li>
+<li><p><strong>score_threshold</strong> – the nsfw score threshold for samples.
+range from 0 to 1. Samples with nsfw score less than this threshold
+will be kept.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode for multiple sampled video frames.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_ocr_area_ratio_filter">
+<span id="data-juicer-ops-filter-video-ocr-area-ratio-filter-module"></span><h2>data_juicer.ops.filter.video_ocr_area_ratio_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_ocr_area_ratio_filter" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_ocr_area_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">triangle_area</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">p2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">p3</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#triangle_area"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area" title="Link to this definition">¶</a></dt>
+<dd><p>Compute the triangle area according to its coordinates.</p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_ocr_area_ratio_filter.</span></span><span class="sig-name descname"><span class="pre">VideoOcrAreaRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose detected text area ratios for specified frames
+in the video are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_area_ratio</strong> – The min ocr area ratio to keep samples. It’s 0
+by default.</p></li>
+<li><p><strong>max_area_ratio</strong> – The max ocr area ratio to keep samples. It’s 1.0
+by default.</p></li>
+<li><p><strong>frame_sample_num</strong> – The number of sampled frames to calculate the
+ocr area ratio. If it’s 1, only middle frame will be selected. If
+it’s 2, only the first and the last frames will be selected. If
+it’s larger than 2, in addition to the first and the last frames,
+other frames will be sampled evenly within the video duration.</p></li>
+<li><p><strong>languages_to_detect</strong> – texts in which languages should be
+detected. Default: [‘ch_sim’, ‘en’]. Full language list can be
+found here: <a class="reference external" href="https://www.jaided.ai/easyocr/">https://www.jaided.ai/easyocr/</a>.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader">
+<span class="sig-name descname"><span class="pre">get_reader</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rank</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.get_reader"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_resolution_filter">
+<span id="data-juicer-ops-filter-video-resolution-filter-module"></span><h2>data_juicer.ops.filter.video_resolution_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_resolution_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_resolution_filter.</span></span><span class="sig-name descname"><span class="pre">VideoResolutionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Keep data samples whose videos’ resolutions are within a specified range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – The min horizontal resolution.</p></li>
+<li><p><strong>max_width</strong> – The max horizontal resolution.</p></li>
+<li><p><strong>min_height</strong> – The min vertical resolution.</p></li>
+<li><p><strong>max_height</strong> – The max vertical resolution.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_tagging_from_frames_filter">
+<span id="data-juicer-ops-filter-video-tagging-from-frames-filter-module"></span><h2>data_juicer.ops.filter.video_tagging_from_frames_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_tagging_from_frames_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_tagging_from_frames_filter.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_frame_tags__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos contain the given tags.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_frame_tags__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>tags</strong> – a tag list to shift the videos, total tags can be found
+in <a class="reference external" href="https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt">https://github.com/xinyu1205/recognize-anything/blob/main/ram/data/ram_tag_list.txt</a> # noqa: E501</p></li>
+<li><p><strong>contain</strong> – require the videos containing ‘any’ or ‘all’ tags.
+When tags equal to [], ‘all’ keeps all samples, ‘any’ keeps no
+sample.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“__dj__video_frame_tags__” in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.video_watermark_filter">
+<span id="data-juicer-ops-filter-video-watermark-filter-module"></span><h2>data_juicer.ops.filter.video_watermark_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.video_watermark_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.video_watermark_filter.</span></span><span class="sig-name descname"><span class="pre">VideoWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples whose videos have no watermark with high
+probability.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_watermark_model</strong> – watermark detection model name on
+huggingface.</p></li>
+<li><p><strong>prob_threshold</strong> – the predicted watermark probability threshold
+for samples. range from 0 to 1. Samples with watermark probability
+less than this threshold will be kept.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos.
+Should be one of [“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>reduce_mode</strong> – reduce mode for multiple sampled video frames.
+‘avg’: Take the average of multiple values
+‘max’: Take the max of multiple values
+‘min’: Take the min of multiple values</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all videos. ‘any’: keep this sample if any videos meet the
+condition. ‘all’: keep this sample only if all videos meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.word_repetition_filter">
+<span id="data-juicer-ops-filter-word-repetition-filter-module"></span><h2>data_juicer.ops.filter.word_repetition_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.word_repetition_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.word_repetition_filter.</span></span><span class="sig-name descname"><span class="pre">WordRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with word-level n-gram repetition ratio within a
+specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>rep_len</strong> – Repetition length for word-level n-gram.</p></li>
+<li><p><strong>min_ratio</strong> – The min filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio is
+below this parameter.</p></li>
+<li><p><strong>max_ratio</strong> – The max filter ratio in this op, samples will
+be filtered if their word-level n-gram repetition ratio
+exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter.words_num_filter">
+<span id="data-juicer-ops-filter-words-num-filter-module"></span><h2>data_juicer.ops.filter.words_num_filter module<a class="headerlink" href="#module-data_juicer.ops.filter.words_num_filter" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.words_num_filter.</span></span><span class="sig-name descname"><span class="pre">WordsNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>Filter to keep samples with total words number within a specific
+range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language.</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>min_num</strong> – The min filter word number in this op, samples
+will be filtered if their word number is below this
+parameter.</p></li>
+<li><p><strong>max_num</strong> – The max filter word number in this op, samples
+will be filtered if their word number exceeds this
+parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.filter">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.filter" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.AlphanumericFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AlphanumericFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/alphanumeric_filter.html#AlphanumericFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AlphanumericFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with alphabet/numeric ratio within a specific
 range.</p>
 <dl class="py method">
@@ -171,7 +3000,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.AudioDurationFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AudioDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_duration_filter.html#AudioDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioDurationFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose audios’ durations are within a specified range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.AudioDurationFilter.__init__">
@@ -233,7 +3062,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.AudioNMFSNRFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AudioNMFSNRFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_snr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nmf_iter_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_nmf_snr_filter.html#AudioNMFSNRFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioNMFSNRFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose audios’ SNRs (computed based on NMF) are within
 a specified range.</p>
 <dl class="py method">
@@ -298,7 +3127,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.AudioSizeFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AudioSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/audio_size_filter.html#AudioSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AudioSizeFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose audio size (in bytes/kb/MB/…) within a
 specific range.</p>
 <dl class="py method">
@@ -361,7 +3190,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.AverageLineLengthFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">AverageLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/average_line_length_filter.html#AverageLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.AverageLineLengthFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with average line length within a specific
 range.</p>
 <dl class="py method">
@@ -399,7 +3228,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.CharacterRepetitionFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">CharacterRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/character_repetition_filter.html#CharacterRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.CharacterRepetitionFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with char-level n-gram repetition ratio within a
 specific range.</p>
 <dl class="py method">
@@ -438,7 +3267,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.FlaggedWordFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">FlaggedWordFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.045</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">flagged_words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/flagged_words_filter.html#FlaggedWordFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.FlaggedWordFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with flagged-word ratio less than a specific max
 value.</p>
 <dl class="py method">
@@ -483,7 +3312,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAestheticsFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aesthetics_filter.html#ImageAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAestheticsFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with aesthetics scores within a specific range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAestheticsFilter.__init__">
@@ -547,7 +3376,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageAspectRatioFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.333</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_aspect_ratio_filter.html#ImageAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageAspectRatioFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with image aspect ratio within a specific range.
 AspectRatio = W / H.</p>
 <dl class="py method">
@@ -585,7 +3414,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceCountFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceCountFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_face_count</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_count_filter.html#ImageFaceCountFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceCountFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with the number of faces within a specific range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceCountFilter.__init__">
@@ -647,7 +3476,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceRatioFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageFaceRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_face_ratio_filter.html#ImageFaceRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageFaceRatioFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with face area ratios within a specific range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageFaceRatioFilter.__init__">
@@ -709,7 +3538,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageNSFWFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_nsfw_filter.html#ImageNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageNSFWFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples whose images have low nsfw scores.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageNSFWFilter.__init__">
@@ -771,7 +3600,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImagePairSimilarityFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImagePairSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">ClosedUnitInterval</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_pair_similarity_filter.html#ImagePairSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImagePairSimilarityFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep image pairs with similarities between images
 within a specific range.</p>
 <dl class="py method">
@@ -834,7 +3663,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageShapeFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageShapeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_shape_filter.html#ImageShapeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageShapeFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with image shape (w, h) within specific ranges.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageShapeFilter.__init__">
@@ -896,7 +3725,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageSizeFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageSizeFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'0'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'1TB'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_size_filter.html#ImageSizeFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageSizeFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose image size (in Bytes/KB/MB/…) within a
 specific range.</p>
 <dl class="py method">
@@ -959,7 +3788,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextMatchingFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextMatchingFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip-itm-base-coco'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.003</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_matching_filter.html#ImageTextMatchingFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextMatchingFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples those matching score between image and text
 within a specific range.</p>
 <dl class="py method">
@@ -1029,7 +3858,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageTextSimilarityFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_text_similarity_filter.html#ImageTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageTextSimilarityFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples those similarities between image and text
 within a specific range.</p>
 <dl class="py method">
@@ -1099,7 +3928,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.ImageWatermarkFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">ImageWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/image_watermark_filter.html#ImageWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.ImageWatermarkFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples whose images have no watermark with high
 probability.</p>
 <dl class="py method">
@@ -1163,7 +3992,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.LanguageIDScoreFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">LanguageIDScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/language_id_score_filter.html#LanguageIDScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.LanguageIDScoreFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples in a specific language with confidence score
 larger than a specific min value.</p>
 <dl class="py method">
@@ -1221,7 +4050,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.MaximumLineLengthFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">MaximumLineLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/maximum_line_length_filter.html#MaximumLineLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.MaximumLineLengthFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with maximum line length within a specific
 range.</p>
 <dl class="py method">
@@ -1259,7 +4088,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.PerplexityFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">PerplexityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ppl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1500</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/perplexity_filter.html#PerplexityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PerplexityFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with perplexity score less than a specific max
 value.</p>
 <dl class="py method">
@@ -1294,7 +4123,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.PhraseGroundingRecallFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">PhraseGroundingRecallFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_owlvit</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'google/owlvit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_recall</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">iou_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">large_area_ratio_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.95</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">conf_thr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/phrase_grounding_recall_filter.html#PhraseGroundingRecallFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.PhraseGroundingRecallFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples whose locating recalls of phrases extracted
 from text in the images are within a specified range.</p>
 <dl class="py method">
@@ -1375,7 +4204,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.SpecialCharactersFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SpecialCharactersFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/special_characters_filter.html#SpecialCharactersFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecialCharactersFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with special-char ratio within a specific
 range.</p>
 <dl class="py method">
@@ -1413,7 +4242,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedFieldFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_field_filter.html#SpecifiedFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedFieldFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter based on specified field information.</p>
 <p>If the specified field information in the sample is not within the
 specified target value, the sample will be filtered.</p>
@@ -1475,7 +4304,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.SpecifiedNumericFieldFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SpecifiedNumericFieldFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/specified_numeric_field_filter.html#SpecifiedNumericFieldFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SpecifiedNumericFieldFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter based on specified numeric field information.</p>
 <p>If the specified numeric information in the sample is not within the
 specified range, the sample will be filtered.</p>
@@ -1541,7 +4370,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.StopWordsFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">StopWordsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stopwords_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'/home/runner/.cache/data_juicer/assets'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_words_aug</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_group_sizes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[2]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_aug_join_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/stopwords_filter.html#StopWordsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.StopWordsFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with stopword ratio larger than a specific min
 value.</p>
 <dl class="py method">
@@ -1608,7 +4437,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.SuffixFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">SuffixFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/suffix_filter.html#SuffixFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.SuffixFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with specified suffix.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.SuffixFilter.__init__">
@@ -1664,7 +4493,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.TextActionFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TextActionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_action_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_action_filter.html#TextActionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextActionFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep texts those contain actions in the text.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.TextActionFilter.__init__">
@@ -1721,7 +4550,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.TextEntityDependencyFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TextEntityDependencyFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_dependency_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_entity_dependency_filter.html#TextEntityDependencyFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextEntityDependencyFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Identify the entities in the text which are independent with other token,
 and filter them. The text containing no entities will be omitted.</p>
 <dl class="py method">
@@ -1782,7 +4611,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.TextLengthFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TextLengthFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/text_length_filter.html#TextLengthFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TextLengthFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with total text length within a specific
 range.</p>
 <dl class="py method">
@@ -1820,7 +4649,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.TokenNumFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">TokenNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'EleutherAI/pythia-6.9b-deduped'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/token_num_filter.html#TokenNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.TokenNumFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with total token number within a specific
 range.</p>
 <dl class="py method">
@@ -1882,7 +4711,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAestheticsFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoAestheticsFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_scorer_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.4</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'uniform'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aesthetics_filter.html#VideoAestheticsFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAestheticsFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep data samples with aesthetics scores for specified frames
 in the videos within a specific range.</p>
 <dl class="py method">
@@ -1966,7 +4795,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoAspectRatioFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoAspectRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_aspect_ratio_filter.html#VideoAspectRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoAspectRatioFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with video aspect ratio within a specific range.
 AspectRatio = W / H.</p>
 <dl class="py method">
@@ -2029,7 +4858,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoDurationFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoDurationFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_duration_filter.html#VideoDurationFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoDurationFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose videos’ durations are within a specified range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoDurationFilter.__init__">
@@ -2091,7 +4920,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoFramesTextSimilarityFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoFramesTextSimilarityFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_clip</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'openai/clip-vit-base-patch32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_frames_text_similarity_filter.html#VideoFramesTextSimilarityFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoFramesTextSimilarityFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples those similarities between sampled video frame
 images and text within a specific range.</p>
 <dl class="py method">
@@ -2176,7 +5005,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.25</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_filter.html#VideoMotionScoreFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with video motion scores within a specific range. The
 Farneback’s algorith from OpenCV is used to compute dense optical flow.</p>
 <dl class="py method">
@@ -2262,7 +5091,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoMotionScoreRaftFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoMotionScoreRaftFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_score</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.7976931348623157e+308</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_fps</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relative</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_motion_score_raft_filter.html#VideoMotionScoreRaftFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoMotionScoreRaftFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.filter.VideoMotionScoreFilter" title="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="xref py py-class docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter" title="data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="xref py py-class docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></p>
 <p>Filter to keep samples with video motion scores within a specified range.
 This operator utilizes the RAFT (Recurrent All-Pairs Field Transforms)
 model from torchvision to predict optical flow between video frames.</p>
@@ -2320,7 +5149,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoNSFWFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoNSFWFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_nsfw_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Falconsai/nsfw_image_detection'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">score_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_nsfw_filter.html#VideoNSFWFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoNSFWFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples whose videos have low nsfw scores.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoNSFWFilter.__init__">
@@ -2399,7 +5228,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoOcrAreaRatioFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoOcrAreaRatioFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_area_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sample_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">languages_to_detect</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['ch_sim',</span> <span class="pre">'en']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_ocr_area_ratio_filter.html#VideoOcrAreaRatioFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoOcrAreaRatioFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose detected text area ratios for specified frames
 in the video are within a specified range.</p>
 <dl class="py method">
@@ -2475,7 +5304,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoResolutionFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoResolutionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_resolution_filter.html#VideoResolutionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoResolutionFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Keep data samples whose videos’ resolutions are within a specified range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoResolutionFilter.__init__">
@@ -2537,7 +5366,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoTaggingFromFramesFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tags</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['people']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">contain</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_frame_tags__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_tagging_from_frames_filter.html#VideoTaggingFromFramesFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoTaggingFromFramesFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples whose videos contain the given tags.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__">
@@ -2615,7 +5444,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.VideoWatermarkFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">VideoWatermarkFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_watermark_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'amrul-hzz/watermark_detector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prob_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'avg'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/video_watermark_filter.html#VideoWatermarkFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.VideoWatermarkFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples whose videos have no watermark with high
 probability.</p>
 <dl class="py method">
@@ -2696,7 +5525,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.WordRepetitionFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">WordRepetitionFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rep_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.5</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/word_repetition_filter.html#WordRepetitionFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordRepetitionFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with word-level n-gram repetition ratio within a
 specific range.</p>
 <dl class="py method">
@@ -2737,7 +5566,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.filter.WordsNumFilter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.filter.</span></span><span class="sig-name descname"><span class="pre">WordsNumFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/filter/words_num_filter.html#WordsNumFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.filter.WordsNumFilter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
 <p>Filter to keep samples with total words number within a specific
 range.</p>
 <dl class="py method">
@@ -2774,14 +5603,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.html" class="btn btn-neutral float-left" title="data_juicer.ops" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-right" title="data_juicer.ops.mapper" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-left" title="data_juicer.ops.deduplicator package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.grouper.html" class="btn btn-neutral float-right" title="data_juicer.ops.grouper package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.grouper.html b/data_juicer.ops.grouper.html
index 227c06b34..266102775 100644
--- a/data_juicer.ops.grouper.html
+++ b/data_juicer.ops.grouper.html
@@ -6,17 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.grouper &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.grouper package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
-    <link rel="search" title="Search" href="search.html" /> 
+    <link rel="search" title="Search" href="search.html" />
+    <link rel="next" title="data_juicer.ops.mapper package" href="data_juicer.ops.mapper.html" />
+    <link rel="prev" title="data_juicer.ops.filter package" href="data_juicer.ops.filter.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -39,17 +41,25 @@
 </div>
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
-<ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<ul class="current">
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1 current"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul class="current">
+<li class="toctree-l2 current"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +76,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.grouper</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.grouper package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.grouper.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,12 +87,96 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.grouper">
-<span id="data-juicer-ops-grouper"></span><h1>data_juicer.ops.grouper<a class="headerlink" href="#module-data_juicer.ops.grouper" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-grouper-package">
+<h1>data_juicer.ops.grouper package<a class="headerlink" href="#data-juicer-ops-grouper-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.grouper.key_value_grouper">
+<span id="data-juicer-ops-grouper-key-value-grouper-module"></span><h2>data_juicer.ops.grouper.key_value_grouper module<a class="headerlink" href="#module-data_juicer.ops.grouper.key_value_grouper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.key_value_grouper.</span></span><span class="sig-name descname"><span class="pre">KeyValueGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Group samples to batched samples according values in given keys.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>group_by_keys</strong> – group samples according values in the keys.
+Support for nested keys such as “__dj__stats__.text_len”.
+It is [self.text_key] in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.grouper.naive_grouper">
+<span id="data-juicer-ops-grouper-naive-grouper-module"></span><h2>data_juicer.ops.grouper.naive_grouper module<a class="headerlink" href="#module-data_juicer.ops.grouper.naive_grouper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_grouper.NaiveGrouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.naive_grouper.</span></span><span class="sig-name descname"><span class="pre">NaiveGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_grouper.NaiveGrouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<p>Group all samples to one batched sample.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.grouper">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.grouper" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveGrouper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.</span></span><span class="sig-name descname"><span class="pre">NaiveGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/naive_grouper.html#NaiveGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.NaiveGrouper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
 <p>Group all samples to one batched sample.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.grouper.NaiveGrouper.__init__">
@@ -116,7 +211,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.grouper.KeyValueGrouper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.grouper.</span></span><span class="sig-name descname"><span class="pre">KeyValueGrouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">group_by_keys</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/grouper/key_value_grouper.html#KeyValueGrouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.grouper.KeyValueGrouper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper" title="data_juicer.ops.base_op.Grouper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Grouper</span></code></a></p>
 <p>Group samples to batched samples according values in given keys.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.grouper.KeyValueGrouper.__init__">
@@ -151,12 +246,16 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
-          <footer>
+          <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
+        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-left" title="data_juicer.ops.filter package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-right" title="data_juicer.ops.mapper package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+    </div>
 
   <hr/>
 
diff --git a/data_juicer.ops.html b/data_juicer.ops.html
index efa586d35..539869ae3 100644
--- a/data_juicer.ops.html
+++ b/data_juicer.ops.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.filter" href="data_juicer.ops.filter.html" />
-    <link rel="prev" title="data_juicer.core" href="data_juicer.core.html" /> 
+    <link rel="next" title="data_juicer.ops.aggregator package" href="data_juicer.ops.aggregator.html" />
+    <link rel="prev" title="data_juicer.core package" href="data_juicer.core.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,53 +42,2617 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.Grouper"><code class="docutils literal notranslate"><span class="pre">Grouper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.Aggregator"><code class="docutils literal notranslate"><span class="pre">Aggregator</span></code></a></li>
-</ul>
-</li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops">Module contents</a></li>
 </ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
+</ul>
+
+        </div>
+      </div>
+    </nav>
+
+    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
+          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
+          <a href="index.html">data_juicer</a>
+      </nav>
+
+      <div class="wy-nav-content">
+        <div class="rst-content">
+          <div role="navigation" aria-label="Page navigation">
+  <ul class="wy-breadcrumbs">
+      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
+      <li class="breadcrumb-item active">data_juicer.ops package</li>
+      <li class="wy-breadcrumbs-aside">
+            <a href="_sources/data_juicer.ops.rst.txt" rel="nofollow"> View page source</a>
+      </li>
+  </ul>
+  <hr/>
+</div>
+          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
+           <div itemprop="articleBody">
+             
+  <section id="data-juicer-ops-package">
+<h1>data_juicer.ops package<a class="headerlink" href="#data-juicer-ops-package" title="Link to this heading">¶</a></h1>
+<section id="subpackages">
+<h2>Subpackages<a class="headerlink" href="#subpackages" title="Link to this heading">¶</a></h2>
+<div class="toctree-wrapper compound">
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.aggregator.html">data_juicer.ops.aggregator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">data_juicer.ops.aggregator.entity_attribute_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.attribute_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">data_juicer.ops.aggregator.most_relavant_entities_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.query_most_relavant_entities()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">data_juicer.ops.aggregator.nested_aggregator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator"><code class="docutils literal notranslate"><span class="pre">NestedAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.recursive_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator"><code class="docutils literal notranslate"><span class="pre">NestedAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.recursive_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">NestedAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.attribute_summary()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">EntityAttributeAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.query_most_relavant_entities()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single"><code class="docutils literal notranslate"><span class="pre">MostRelavantEntitiesAggregator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind"><code class="docutils literal notranslate"><span class="pre">UnionFind</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__"><code class="docutils literal notranslate"><span class="pre">UnionFind.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find"><code class="docutils literal notranslate"><span class="pre">UnionFind.find()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union"><code class="docutils literal notranslate"><span class="pre">UnionFind.union()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32"><code class="docutils literal notranslate"><span class="pre">sha1_hash32()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param"><code class="docutils literal notranslate"><span class="pre">optimal_param()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method"><code class="docutils literal notranslate"><span class="pre">get_hash_method()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.EMPTY_HASH_VALUE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.calculate_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method"><code class="docutils literal notranslate"><span class="pre">get_hash_method()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.EMPTY_HASH_VALUE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.calculate_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator.calculate_hash()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.compute_hash()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.process"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise"><code class="docutils literal notranslate"><span class="pre">separate_signal_noise()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr"><code class="docutils literal notranslate"><span class="pre">compute_nmf_snr()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases"><code class="docutils literal notranslate"><span class="pre">find_noun_phrases()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation"><code class="docutils literal notranslate"><span class="pre">remove_punctuation()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner"><code class="docutils literal notranslate"><span class="pre">run_ner()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number"><code class="docutils literal notranslate"><span class="pre">is_number()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter"><code class="docutils literal notranslate"><span class="pre">TextActionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoCapture"><code class="docutils literal notranslate"><span class="pre">VideoCapture()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_flow()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.compute_flow()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area"><code class="docutils literal notranslate"><span class="pre">triangle_area()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.get_reader()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.__init__"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.__init__"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.process_single"><code class="docutils literal notranslate"><span class="pre">SuffixFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter"><code class="docutils literal notranslate"><span class="pre">TextActionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextActionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.process_single"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_flow()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.setup_model()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter.compute_flow()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.get_reader()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.__init__"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.compute_stats_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.process_single"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.__init__"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.compute_stats_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.compute_stats_batched()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.process_batched"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.grouper.html">data_juicer.ops.grouper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">data_juicer.ops.grouper.key_value_grouper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">data_juicer.ops.grouper.naive_grouper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.process"><code class="docutils literal notranslate"><span class="pre">NaiveGrouper.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.__init__"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.process"><code class="docutils literal notranslate"><span class="pre">KeyValueGrouper.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter"><code class="docutils literal notranslate"><span class="pre">prepare_converter()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.add_message()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.light_rag_extraction()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api"><code class="docutils literal notranslate"><span class="pre">call_gpt_vision_api()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.should_keep_long_word()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence"><code class="docutils literal notranslate"><span class="pre">split_sentence()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.recursively_chunk()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.get_text_chunks()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale"><code class="docutils literal notranslate"><span class="pre">rescale()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.STRATEGY</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer"><code class="docutils literal notranslate"><span class="pre">create_replacer()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.split_videos_by_duration()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer"><code class="docutils literal notranslate"><span class="pre">create_replacer()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.get_split_key_frame()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func"><code class="docutils literal notranslate"><span class="pre">replace_func()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.avaliable_detectors</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.__init__"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.add_message()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.light_rag_extraction()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.__init__"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.process_single"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.__init__"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.__init__"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.build_input"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.process_single"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper.parse_output()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.build_input"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.build_input()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.__init__"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_single"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_single()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.parse_output"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.parse_output()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.process_single"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.should_keep_long_word()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.__init__"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.__init__"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.recursively_chunk()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.get_text_chunks()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.STRATEGY</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.split_videos_by_duration()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.get_split_key_frame()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.avaliable_detectors</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper.process_single()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper.process_batched()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector"><code class="docutils literal notranslate"><span class="pre">RandomSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RandomSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.process"><code class="docutils literal notranslate"><span class="pre">RandomSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector"><code class="docutils literal notranslate"><span class="pre">RandomSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RandomSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.process"><code class="docutils literal notranslate"><span class="pre">RandomSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.__init__()</span></code></a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.process"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector.process()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</li>
+</ul>
+</div>
+</section>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.base_op">
+<span id="data-juicer-ops-base-op-module"></span><h2>data_juicer.ops.base_op module<a class="headerlink" href="#module-data_juicer.ops.base_op" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.convert_list_dict_to_dict_list">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">convert_list_dict_to_dict_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#convert_list_dict_to_dict_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.convert_list_dict_to_dict_list" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.convert_dict_list_to_list_dict">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">convert_dict_list_to_list_dict</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#convert_dict_list_to_list_dict"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.convert_dict_list_to_list_dict" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.convert_arrow_to_python">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">convert_arrow_to_python</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#convert_arrow_to_python"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.convert_arrow_to_python" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.catch_map_batches_exception">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">catch_map_batches_exception</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#catch_map_batches_exception"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.catch_map_batches_exception" title="Link to this definition">¶</a></dt>
+<dd><p>For batched-map sample-level fault tolerance.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.catch_map_single_exception">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">catch_map_single_exception</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_sample</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#catch_map_single_exception"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.catch_map_single_exception" title="Link to this definition">¶</a></dt>
+<dd><p>For single-map sample-level fault tolerance.
+The input sample is expected batch_size = 1.</p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">OP</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class of operators.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed.</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+<li><p><strong>index_key</strong> – index the samples before process if not None</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.is_batched_op">
+<span class="sig-name descname"><span class="pre">is_batched_op</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.is_batched_op"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.is_batched_op" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.process" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.use_cuda">
+<span class="sig-name descname"><span class="pre">use_cuda</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.use_cuda"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.use_cuda" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.runtime_np">
+<span class="sig-name descname"><span class="pre">runtime_np</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.runtime_np"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.runtime_np" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.remove_extra_parameters">
+<span class="sig-name descname"><span class="pre">remove_extra_parameters</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">param_dict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keys</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.remove_extra_parameters"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.remove_extra_parameters" title="Link to this definition">¶</a></dt>
+<dd><p>at the begining of the init of the mapper op, call
+self.remove_extra_parameters(locals())
+to get the init parameter dict of the op for convenience</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.add_parameters">
+<span class="sig-name descname"><span class="pre">add_parameters</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">init_parameter_dict</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">extra_param_dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.add_parameters"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.add_parameters" title="Link to this definition">¶</a></dt>
+<dd><p>add parameters for each sample, need to keep extra_param_dict
+and init_parameter_dict unchanged.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.OP.empty_history">
+<span class="sig-name descname"><span class="pre">empty_history</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#OP.empty_history"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.OP.empty_history" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts data editing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed.</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Mapper.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Mapper.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that removes specific info.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.compute_stats_single">
+<span class="sig-name descname"><span class="pre">compute_stats_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.compute_stats_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.compute_stats_single" title="Link to this definition">¶</a></dt>
+<dd><p>Compute stats for the sample which is used as a metric to decide
+whether to filter this sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sample</strong> – input sample.</p></li>
+<li><p><strong>context</strong> – whether to store context information of intermediate
+vars in the sample temporarily.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed stats</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; Boolean.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to decide whether to filter</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>true for keeping and false for filtering</p>
+</dd>
+</dl>
+</dd></dl>
 
-        </div>
-      </div>
-    </nav>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Filter.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Filter.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
 
-    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
-          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
-          <a href="index.html">data_juicer</a>
-      </nav>
+</dd></dl>
 
-      <div class="wy-nav-content">
-        <div class="rst-content">
-          <div role="navigation" aria-label="Page navigation">
-  <ul class="wy-breadcrumbs">
-      <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops</li>
-      <li class="wy-breadcrumbs-aside">
-            <a href="_sources/data_juicer.ops.rst.txt" rel="nofollow"> View page source</a>
-      </li>
-  </ul>
-  <hr/>
-</div>
-          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
-           <div itemprop="articleBody">
-             
-  <section id="module-data_juicer.ops">
-<span id="data-juicer-ops"></span><h1>data_juicer.ops<a class="headerlink" href="#module-data_juicer.ops" title="Link to this heading">¶</a></h1>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts deduplication.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.compute_hash">
+<span class="sig-name descname"><span class="pre">compute_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.compute_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.compute_hash" title="Link to this definition">¶</a></dt>
+<dd><p>Compute hash values for the sample.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – input sample</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>sample with computed hash value.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.process" title="Link to this definition">¶</a></dt>
+<dd><p>For doc-level, dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>dataset</strong> – input dataset</p></li>
+<li><p><strong>show_num</strong> – number of traced samples used when tracer is
+open.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>deduplicated dataset and the sampled duplicate pairs.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Deduplicator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reduce</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Deduplicator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Selector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that conducts selection in dataset-level.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Selector.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Selector.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Grouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that group samples.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>dataset of batched samples.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Grouper.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Grouper.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.base_op.</span></span><span class="sig-name descname"><span class="pre">Aggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Base class that group samples.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>text_key</strong> – the key name of field that stores sample texts
+to be processed</p></li>
+<li><p><strong>image_key</strong> – the key name of field that stores sample image list
+to be processed</p></li>
+<li><p><strong>audio_key</strong> – the key name of field that stores sample audio list
+to be processed</p></li>
+<li><p><strong>video_key</strong> – the key name of field that stores sample video list
+to be processed</p></li>
+<li><p><strong>query_key</strong> – the key name of field that stores sample queris</p></li>
+<li><p><strong>response_key</strong> – the key name of field that stores responses</p></li>
+<li><p><strong>history_key</strong> – the key name of field that stores history of
+queries and responses</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, batched sample –&gt; sample,
+the input must be the output of some Grouper OP.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – batched sample to aggregate</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>aggregated sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.base_op.Aggregator.run">
+<span class="sig-name descname"><span class="pre">run</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">exporter</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tracer</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.run"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.base_op.Aggregator.run" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.load">
+<span id="data-juicer-ops-load-module"></span><h2>data_juicer.ops.load module<a class="headerlink" href="#module-data_juicer.ops.load" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.load.load_ops">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.load.</span></span><span class="sig-name descname"><span class="pre">load_ops</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">process_list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/load.html#load_ops"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.load.load_ops" title="Link to this definition">¶</a></dt>
+<dd><p>Load op list according to the process list from config file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>process_list</strong> – A process list. Each item is an op name and its
+arguments.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The op instance list.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.op_fusion">
+<span id="data-juicer-ops-op-fusion-module"></span><h2>data_juicer.ops.op_fusion module<a class="headerlink" href="#module-data_juicer.ops.op_fusion" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.fuse_operators">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">fuse_operators</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ops</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">probe_res</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#fuse_operators"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.fuse_operators" title="Link to this definition">¶</a></dt>
+<dd><p>Fuse the input ops list and return the fused ops list.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ops</strong> – the corresponding list of op objects.</p></li>
+<li><p><strong>probe_res</strong> – the probed speed for each OP from Monitor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a list of fused op objects.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.fuse_filter_group">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">fuse_filter_group</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_filter_group</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#fuse_filter_group"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.fuse_filter_group" title="Link to this definition">¶</a></dt>
+<dd><p>Fuse single filter group and return the fused filter group.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>original_filter_group</strong> – the original filter group, including op
+definitions and objects.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>the fused definitions and objects of the input filter group.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.op_fusion.</span></span><span class="sig-name descname"><span class="pre">FusedFilter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fused_filters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.Filter" title="data_juicer.ops.base_op.Filter"><code class="xref py py-class docutils literal notranslate"><span class="pre">Filter</span></code></a></p>
+<p>A fused operator for filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fused_filters</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>fused_filters</strong> – a list of filters to be fused.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched">
+<span class="sig-name descname"><span class="pre">compute_stats_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.compute_stats_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.op_fusion.FusedFilter.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/op_fusion.html#FusedFilter.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.op_fusion.FusedFilter.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops" title="Link to this heading">¶</a></h2>
 <dl class="py function">
 <dt class="sig sig-object py" id="data_juicer.ops.load_ops">
 <span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">load_ops</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">process_list</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/load.html#load_ops"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.load_ops" title="Link to this definition">¶</a></dt>
@@ -107,7 +2671,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.Filter">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Filter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.Filter.__init__">
 <span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Filter.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Filter.__init__" title="Link to this definition">¶</a></dt>
@@ -185,7 +2749,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.Mapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Mapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.Mapper.__init__">
 <span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Mapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Mapper.__init__" title="Link to this definition">¶</a></dt>
@@ -239,7 +2803,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.Deduplicator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Deduplicator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.Deduplicator.__init__">
 <span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Deduplicator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Deduplicator.__init__" title="Link to this definition">¶</a></dt>
@@ -306,7 +2870,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.Selector">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Selector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Selector" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.Selector.__init__">
 <span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Selector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Selector.__init__" title="Link to this definition">¶</a></dt>
@@ -355,7 +2919,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.Grouper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Grouper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Grouper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.Grouper.__init__">
 <span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Grouper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Grouper.__init__" title="Link to this definition">¶</a></dt>
@@ -404,7 +2968,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.Aggregator">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.</span></span><span class="sig-name descname"><span class="pre">Aggregator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Aggregator" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.base_op.OP" title="data_juicer.ops.base_op.OP"><code class="xref py py-class docutils literal notranslate"><span class="pre">OP</span></code></a></p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.Aggregator.__init__">
 <span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/base_op.html#Aggregator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.Aggregator.__init__" title="Link to this definition">¶</a></dt>
@@ -451,14 +3015,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.core.html" class="btn btn-neutral float-left" title="data_juicer.core" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-right" title="data_juicer.ops.filter" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.core.html" class="btn btn-neutral float-left" title="data_juicer.core package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.aggregator.html" class="btn btn-neutral float-right" title="data_juicer.ops.aggregator package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.mapper.html b/data_juicer.ops.mapper.html
index c488b1f31..ddbf7f9dc 100644
--- a/data_juicer.ops.mapper.html
+++ b/data_juicer.ops.mapper.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.mapper &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.mapper package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.deduplicator" href="data_juicer.ops.deduplicator.html" />
-    <link rel="prev" title="data_juicer.ops.filter" href="data_juicer.ops.filter.html" /> 
+    <link rel="next" title="data_juicer.ops.selector package" href="data_juicer.ops.selector.html" />
+    <link rel="prev" title="data_juicer.ops.grouper package" href="data_juicer.ops.grouper.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,82 +42,84 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.mapper</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.AudioFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CalibrateQAMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CalibrateQueryMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CalibrateResponseMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ChineseConvertMapper"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExtractEventMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExtractKeywordMapper"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExtractNicknameMapper"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ExtractSupportTextMapper"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.GenerateQAFromTextMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ImageBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ImageCaptioningMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ImageDiffusionMapper"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ImageFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ImageTaggingMapper"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.OptimizeQAMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.OptimizeQueryMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.OptimizeResponseMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.PairPreferenceMapper"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.PythonFileMapper"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.PythonLambdaMapper"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RelationIdentityMapper"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveRepeatSentencesMapper"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.ReplaceContentMapper"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.TextChunkMapper"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoExtractFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoRemoveWatermarkMapper"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoResizeAspectRatioMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoResizeResolutionMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoSplitByDurationMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoSplitBySceneMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoTaggingFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.VideoTaggingFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.mapper">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -134,7 +136,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.mapper</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.mapper package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.mapper.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -144,12 +147,3376 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.mapper">
-<span id="data-juicer-ops-mapper"></span><h1>data_juicer.ops.mapper<a class="headerlink" href="#module-data_juicer.ops.mapper" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-mapper-package">
+<h1>data_juicer.ops.mapper package<a class="headerlink" href="#data-juicer-ops-mapper-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">
+<span id="data-juicer-ops-mapper-audio-ffmpeg-wrapped-mapper-module"></span><h2>data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.</span></span><span class="sig-name descname"><span class="pre">AudioFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Simple wrapper for FFmpeg audio filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filter_name</strong> – ffmpeg audio filter name.</p></li>
+<li><p><strong>filter_kwargs</strong> – keyword-arguments passed to ffmpeg filter.</p></li>
+<li><p><strong>global_args</strong> – list-arguments passed to ffmpeg command-line.</p></li>
+<li><p><strong>capture_stderr</strong> – whether to capture stderr.</p></li>
+<li><p><strong>overwrite_output</strong> – whether to overwrite output file.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.calibrate_qa_mapper">
+<span id="data-juicer-ops-mapper-calibrate-qa-mapper-module"></span><h2>data_juicer.ops.mapper.calibrate_qa_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.calibrate_qa_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.calibrate_qa_mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to calibrate question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对【问题】和【回答】进行校准，使其更加详细、准确。\n按照以下格式输出：\n【问题】\n校准后的问题\n【回答】\n校准后的回答'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{reference}\n{qa_pair}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_REFERENCE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【参考信息】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\\s*(.*?)\\s*【回答】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the calibration task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>reference_template</strong> – Template for formatting the reference text.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting question-answer pairs.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.calibrate_query_mapper">
+<span id="data-juicer-ops-mapper-calibrate-query-mapper-module"></span><h2>data_juicer.ops.mapper.calibrate_query_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.calibrate_query_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.calibrate_query_mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<p>Mapper to calibrate query in question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对问答对中的【问题】进行校准，</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">使其更加详细、准确，且仍可以由原答案回答。只输出校准后的问题，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.calibrate_response_mapper">
+<span id="data-juicer-ops-mapper-calibrate-response-mapper-module"></span><h2>data_juicer.ops.mapper.calibrate_response_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.calibrate_response_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.calibrate_response_mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<p>Mapper to calibrate response in question-answer pairs based on reference text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请根据提供的【参考信息】对问答对中的【回答】进行校准，</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">使其更加详细、准确，且仍可以回答原问题。只输出校准后的回答，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.chinese_convert_mapper">
+<span id="data-juicer-ops-mapper-chinese-convert-mapper-module"></span><h2>data_juicer.ops.mapper.chinese_convert_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.chinese_convert_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.chinese_convert_mapper.</span></span><span class="sig-name descname"><span class="pre">prepare_converter</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#prepare_converter"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.chinese_convert_mapper.</span></span><span class="sig-name descname"><span class="pre">ChineseConvertMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to convert Chinese between Traditional Chinese, Simplified Chinese
+and Japanese Kanji.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>mode</strong> – <p>Choose the mode to convert Chinese:</p>
+<p>s2t: Simplified Chinese to Traditional Chinese,</p>
+<p>t2s: Traditional Chinese to Simplified Chinese,</p>
+<p>s2tw: Simplified Chinese to Traditional Chinese (Taiwan Standard),</p>
+<p>tw2s: Traditional Chinese (Taiwan Standard) to Simplified Chinese,</p>
+<p>s2hk: Simplified Chinese to Traditional Chinese
+(Hong Kong variant),</p>
+<p>hk2s: Traditional Chinese (Hong Kong variant) to Simplified
+Chinese,</p>
+<p>s2twp: Simplified Chinese to Traditional Chinese (Taiwan Standard)
+with Taiwanese idiom,</p>
+<p>tw2sp: Traditional Chinese (Taiwan Standard) to Simplified Chinese
+with Mainland Chinese idiom,</p>
+<p>t2tw: Traditional Chinese to Traditional Chinese (Taiwan Standard),</p>
+<p>tw2t: Traditional Chinese (Taiwan standard) to Traditional Chinese,</p>
+<p>hk2t: Traditional Chinese (Hong Kong variant) to Traditional
+Chinese,</p>
+<p>t2hk: Traditional Chinese to Traditional Chinese
+(Hong Kong variant),</p>
+<p>t2jp: Traditional Chinese Characters (Kyūjitai) to New Japanese
+Kanji,</p>
+<p>jp2t: New Japanese Kanji (Shinjitai) to Traditional Chinese
+Characters,</p>
+</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_copyright_mapper">
+<span id="data-juicer-ops-mapper-clean-copyright-mapper-module"></span><h2>data_juicer.ops.mapper.clean_copyright_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_copyright_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_copyright_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanCopyrightMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean copyright comments at the beginning of the text
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_email_mapper">
+<span id="data-juicer-ops-mapper-clean-email-mapper-module"></span><h2>data_juicer.ops.mapper.clean_email_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_email_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_email_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanEmailMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean email in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_html_mapper">
+<span id="data-juicer-ops-mapper-clean-html-mapper-module"></span><h2>data_juicer.ops.mapper.clean_html_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_html_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_html_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanHtmlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean html code in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_ip_mapper">
+<span id="data-juicer-ops-mapper-clean-ip-mapper-module"></span><h2>data_juicer.ops.mapper.clean_ip_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_ip_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_ip_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanIpMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean ipv4 and ipv6 address in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.clean_links_mapper">
+<span id="data-juicer-ops-mapper-clean-links-mapper-module"></span><h2>data_juicer.ops.mapper.clean_links_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.clean_links_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.clean_links_mapper.</span></span><span class="sig-name descname"><span class="pre">CleanLinksMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean links like http/https/ftp in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern to search for within text.</p></li>
+<li><p><strong>repl</strong> – replacement string, default is empty string.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.expand_macro_mapper">
+<span id="data-juicer-ops-mapper-expand-macro-mapper-module"></span><h2>data_juicer.ops.mapper.expand_macro_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.expand_macro_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.expand_macro_mapper.</span></span><span class="sig-name descname"><span class="pre">ExpandMacroMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to expand macro definitions in the document body of Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_entity_attribute_mapper">
+<span id="data-juicer-ops-mapper-extract-entity-attribute-mapper-module"></span><h2>data_juicer.ops.mapper.extract_entity_attribute_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_entity_attribute_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_entity_attribute_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityAttributeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__main_entities__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attributes__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attribute_descriptions__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attribute_support_texts__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract attributes for given entities from the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一段文本，从文本中总结{entity}的{attribute}，并且从原文摘录最能说明该{attribute}的代表性示例。\n要求：\n-</span> <span class="pre">摘录的示例应该简短。\n-</span> <span class="pre">遵循如下的回复格式：\n#</span> <span class="pre">{entity}\n##</span> <span class="pre">{attribute}：\n...\n###</span> <span class="pre">代表性示例摘录1：\n```\n...\n```\n###</span> <span class="pre">代表性示例摘录2：\n```\n...\n```\n...\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_ATTR_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\s*{attribute}：\\s*(.*?)(?=\\#\\#\\#|\\Z)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_DEMON_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\#\\#\\#\\s*代表性示例摘录(\\d+)：\\s*```\\s*(.*?)```\\s*(?=\\#\\#\\#|\\Z)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__main_entities__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attributes__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attribute_descriptions__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attribute_support_texts__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param query_entities: Entity list to be queried.
+:param query_attributes: Attribute list to be queried.
+:param entity_key: The field name to store the given main entity for</p>
+<blockquote>
+<div><p>attribute extraction. It’s “__dj__entity__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>entity_attribute_key</strong> – The field name to store the given
+attribute to be extracted. It’s “__dj__attribute__” in default.</p></li>
+<li><p><strong>attribute_desc_key</strong> – The field name to store the extracted
+attribute description. It’s “__dj__attribute_description__” in
+default.</p></li>
+<li><p><strong>support_text_key</strong> – The field name to store the attribute
+support text extracted from the raw text. It’s
+“__dj__support_text__” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – System prompt template for the
+task. Need to be specified by given entity and attribute.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>attr_pattern_template</strong> – Pattern for parsing the attribute from
+output. Need to be specified by given attribute.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Param<span class="colon">:</span></dt>
+<dd class="field-even"><p>demo_pattern: Pattern for parsing the demonstraction from
+output to support the attribute.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_entity_relation_mapper">
+<span id="data-juicer-ops-mapper-extract-entity-relation-mapper-module"></span><h2>data_juicer.ops.mapper.extract_entity_relation_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_entity_relation_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_entity_relation_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityRelationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__entity__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__relation__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract entities and relations in the text for knowledge graph.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-Goal-\nGiven</span> <span class="pre">a</span> <span class="pre">text</span> <span class="pre">document</span> <span class="pre">that</span> <span class="pre">is</span> <span class="pre">potentially</span> <span class="pre">relevant</span> <span class="pre">to</span> <span class="pre">this</span> <span class="pre">activity</span> <span class="pre">and</span> <span class="pre">a</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">entity</span> <span class="pre">types,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">entities</span> <span class="pre">of</span> <span class="pre">those</span> <span class="pre">types</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">text</span> <span class="pre">and</span> <span class="pre">all</span> <span class="pre">relationships</span> <span class="pre">among</span> <span class="pre">the</span> <span class="pre">identified</span> <span class="pre">entities.\n\n-Steps-\n1.</span> <span class="pre">Identify</span> <span class="pre">all</span> <span class="pre">entities.</span> <span class="pre">For</span> <span class="pre">each</span> <span class="pre">identified</span> <span class="pre">entity,</span> <span class="pre">extract</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">information:\n-</span> <span class="pre">entity_name:</span> <span class="pre">Name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entity\n-</span> <span class="pre">entity_type:</span> <span class="pre">One</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">types:</span> <span class="pre">[{entity_types}]\n-</span> <span class="pre">entity_description:</span> <span class="pre">Comprehensive</span> <span class="pre">description</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entity\'s</span> <span class="pre">attributes</span> <span class="pre">and</span> <span class="pre">activities\nFormat</span> <span class="pre">each</span> <span class="pre">entity</span> <span class="pre">as</span> <span class="pre">(&quot;entity&quot;{tuple_delimiter}&lt;entity_name&gt;{tuple_delimiter}&lt;entity_type&gt;{tuple_delimiter}&lt;entity_description&gt;\n\n2.</span> <span class="pre">From</span> <span class="pre">the</span> <span class="pre">entities</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">pairs</span> <span class="pre">of</span> <span class="pre">(source_entity,</span> <span class="pre">target_entity)</span> <span class="pre">that</span> <span class="pre">are</span> <span class="pre">*clearly</span> <span class="pre">related*</span> <span class="pre">to</span> <span class="pre">each</span> <span class="pre">other.\nFor</span> <span class="pre">each</span> <span class="pre">pair</span> <span class="pre">of</span> <span class="pre">related</span> <span class="pre">entities,</span> <span class="pre">extract</span> <span class="pre">the</span> <span class="pre">following</span> <span class="pre">information:\n-</span> <span class="pre">source_entity:</span> <span class="pre">name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity,</span> <span class="pre">as</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1\n-</span> <span class="pre">target_entity:</span> <span class="pre">name</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">target</span> <span class="pre">entity,</span> <span class="pre">as</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">step</span> <span class="pre">1\n-</span> <span class="pre">relationship_description:</span> <span class="pre">explanation</span> <span class="pre">as</span> <span class="pre">to</span> <span class="pre">why</span> <span class="pre">you</span> <span class="pre">think</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity</span> <span class="pre">and</span> <span class="pre">the</span> <span class="pre">target</span> <span class="pre">entity</span> <span class="pre">are</span> <span class="pre">related</span> <span class="pre">to</span> <span class="pre">each</span> <span class="pre">other\n-</span> <span class="pre">relationship_strength:</span> <span class="pre">a</span> <span class="pre">numeric</span> <span class="pre">score</span> <span class="pre">indicating</span> <span class="pre">strength</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">relationship</span> <span class="pre">between</span> <span class="pre">the</span> <span class="pre">source</span> <span class="pre">entity</span> <span class="pre">and</span> <span class="pre">target</span> <span class="pre">entity\n-</span> <span class="pre">relationship_keywords:</span> <span class="pre">one</span> <span class="pre">or</span> <span class="pre">more</span> <span class="pre">high-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">that</span> <span class="pre">summarize</span> <span class="pre">the</span> <span class="pre">overarching</span> <span class="pre">nature</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">relationship,</span> <span class="pre">focusing</span> <span class="pre">on</span> <span class="pre">concepts</span> <span class="pre">or</span> <span class="pre">themes</span> <span class="pre">rather</span> <span class="pre">than</span> <span class="pre">specific</span> <span class="pre">details\nFormat</span> <span class="pre">each</span> <span class="pre">relationship</span> <span class="pre">as</span> <span class="pre">(&quot;relationship&quot;{tuple_delimiter}&lt;source_entity&gt;{tuple_delimiter}&lt;target_entity&gt;{tuple_delimiter}&lt;relationship_description&gt;{tuple_delimiter}&lt;relationship_keywords&gt;{tuple_delimiter}&lt;relationship_strength&gt;)\n\n3.</span> <span class="pre">Return</span> <span class="pre">output</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">language</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">given</span> <span class="pre">text</span> <span class="pre">as</span> <span class="pre">a</span> <span class="pre">single</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">all</span> <span class="pre">the</span> <span class="pre">entities</span> <span class="pre">and</span> <span class="pre">relationships</span> <span class="pre">identified</span> <span class="pre">in</span> <span class="pre">steps</span> <span class="pre">1</span> <span class="pre">and</span> <span class="pre">2.</span> <span class="pre">Use</span> <span class="pre">**{record_delimiter}**</span> <span class="pre">as</span> <span class="pre">the</span> <span class="pre">list</span> <span class="pre">delimiter.\n\n4.</span> <span class="pre">When</span> <span class="pre">finished,</span> <span class="pre">output</span> <span class="pre">{completion_delimiter}\n\n######################\n-Examples-\n######################\nExample</span> <span class="pre">1:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">technology,</span> <span class="pre">mission,</span> <span class="pre">organization,</span> <span class="pre">location]\nText:\n```\nwhile</span> <span class="pre">Alex</span> <span class="pre">clenched</span> <span class="pre">his</span> <span class="pre">jaw,</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">frustration</span> <span class="pre">dull</span> <span class="pre">against</span> <span class="pre">the</span> <span class="pre">backdrop</span> <span class="pre">of</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty.</span> <span class="pre">It</span> <span class="pre">was</span> <span class="pre">this</span> <span class="pre">competitive</span> <span class="pre">undercurrent</span> <span class="pre">that</span> <span class="pre">kept</span> <span class="pre">him</span> <span class="pre">alert,</span> <span class="pre">the</span> <span class="pre">sense</span> <span class="pre">that</span> <span class="pre">his</span> <span class="pre">and</span> <span class="pre">Jordan\'s</span> <span class="pre">shared</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">was</span> <span class="pre">an</span> <span class="pre">unspoken</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">narrowing</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.\n\nThen</span> <span class="pre">Taylor</span> <span class="pre">did</span> <span class="pre">something</span> <span class="pre">unexpected.</span> <span class="pre">They</span> <span class="pre">paused</span> <span class="pre">beside</span> <span class="pre">Jordan</span> <span class="pre">and,</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">moment,</span> <span class="pre">observed</span> <span class="pre">the</span> <span class="pre">device</span> <span class="pre">with</span> <span class="pre">something</span> <span class="pre">akin</span> <span class="pre">to</span> <span class="pre">reverence.</span> <span class="pre">“If</span> <span class="pre">this</span> <span class="pre">tech</span> <span class="pre">can</span> <span class="pre">be</span> <span class="pre">understood...&quot;</span> <span class="pre">Taylor</span> <span class="pre">said,</span> <span class="pre">their</span> <span class="pre">voice</span> <span class="pre">quieter,</span> <span class="pre">&quot;It</span> <span class="pre">could</span> <span class="pre">change</span> <span class="pre">the</span> <span class="pre">game</span> <span class="pre">for</span> <span class="pre">us.</span> <span class="pre">For</span> <span class="pre">all</span> <span class="pre">of</span> <span class="pre">us.”\n\nThe</span> <span class="pre">underlying</span> <span class="pre">dismissal</span> <span class="pre">earlier</span> <span class="pre">seemed</span> <span class="pre">to</span> <span class="pre">falter,</span> <span class="pre">replaced</span> <span class="pre">by</span> <span class="pre">a</span> <span class="pre">glimpse</span> <span class="pre">of</span> <span class="pre">reluctant</span> <span class="pre">respect</span> <span class="pre">for</span> <span class="pre">the</span> <span class="pre">gravity</span> <span class="pre">of</span> <span class="pre">what</span> <span class="pre">lay</span> <span class="pre">in</span> <span class="pre">their</span> <span class="pre">hands.</span> <span class="pre">Jordan</span> <span class="pre">looked</span> <span class="pre">up,</span> <span class="pre">and</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">fleeting</span> <span class="pre">heartbeat,</span> <span class="pre">their</span> <span class="pre">eyes</span> <span class="pre">locked</span> <span class="pre">with</span> <span class="pre">Taylor\'s,</span> <span class="pre">a</span> <span class="pre">wordless</span> <span class="pre">clash</span> <span class="pre">of</span> <span class="pre">wills</span> <span class="pre">softening</span> <span class="pre">into</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.\n\nIt</span> <span class="pre">was</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">transformation,</span> <span class="pre">barely</span> <span class="pre">perceptible,</span> <span class="pre">but</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">Alex</span> <span class="pre">noted</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">inward</span> <span class="pre">nod.</span> <span class="pre">They</span> <span class="pre">had</span> <span class="pre">all</span> <span class="pre">been</span> <span class="pre">brought</span> <span class="pre">here</span> <span class="pre">by</span> <span class="pre">different</span> <span class="pre">paths\n```\n################\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">a</span> <span class="pre">character</span> <span class="pre">who</span> <span class="pre">experiences</span> <span class="pre">frustration</span> <span class="pre">and</span> <span class="pre">is</span> <span class="pre">observant</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">dynamics</span> <span class="pre">among</span> <span class="pre">other</span> <span class="pre">characters.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">is</span> <span class="pre">portrayed</span> <span class="pre">with</span> <span class="pre">authoritarian</span> <span class="pre">certainty</span> <span class="pre">and</span> <span class="pre">shows</span> <span class="pre">a</span> <span class="pre">moment</span> <span class="pre">of</span> <span class="pre">reverence</span> <span class="pre">towards</span> <span class="pre">a</span> <span class="pre">device,</span> <span class="pre">indicating</span> <span class="pre">a</span> <span class="pre">change</span> <span class="pre">in</span> <span class="pre">perspective.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Jordan</span> <span class="pre">shares</span> <span class="pre">a</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">and</span> <span class="pre">has</span> <span class="pre">a</span> <span class="pre">significant</span> <span class="pre">interaction</span> <span class="pre">with</span> <span class="pre">Taylor</span> <span class="pre">regarding</span> <span class="pre">a</span> <span class="pre">device.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Cruz&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Cruz</span> <span class="pre">is</span> <span class="pre">associated</span> <span class="pre">with</span> <span class="pre">a</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order,</span> <span class="pre">influencing</span> <span class="pre">the</span> <span class="pre">dynamics</span> <span class="pre">among</span> <span class="pre">other</span> <span class="pre">characters.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device&quot;{tuple_delimiter}&quot;technology&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device</span> <span class="pre">is</span> <span class="pre">central</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">story,</span> <span class="pre">with</span> <span class="pre">potential</span> <span class="pre">game-changing</span> <span class="pre">implications,</span> <span class="pre">and</span> <span class="pre">is</span> <span class="pre">revered</span> <span class="pre">by</span> <span class="pre">Taylor.&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">affected</span> <span class="pre">by</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty</span> <span class="pre">and</span> <span class="pre">observes</span> <span class="pre">changes</span> <span class="pre">in</span> <span class="pre">Taylor\'s</span> <span class="pre">attitude</span> <span class="pre">towards</span> <span class="pre">the</span> <span class="pre">device.&quot;{tuple_delimiter}&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">perspective</span> <span class="pre">shift&quot;{tuple_delimiter}7){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">and</span> <span class="pre">Jordan</span> <span class="pre">share</span> <span class="pre">a</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery,</span> <span class="pre">which</span> <span class="pre">contrasts</span> <span class="pre">with</span> <span class="pre">Cruz\'s</span> <span class="pre">vision.&quot;{tuple_delimiter}&quot;shared</span> <span class="pre">goals,</span> <span class="pre">rebellion&quot;{tuple_delimiter}6){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">and</span> <span class="pre">Jordan</span> <span class="pre">interact</span> <span class="pre">directly</span> <span class="pre">regarding</span> <span class="pre">the</span> <span class="pre">device,</span> <span class="pre">leading</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">moment</span> <span class="pre">of</span> <span class="pre">mutual</span> <span class="pre">respect</span> <span class="pre">and</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.&quot;{tuple_delimiter}&quot;conflict</span> <span class="pre">resolution,</span> <span class="pre">mutual</span> <span class="pre">respect&quot;{tuple_delimiter}8){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Jordan&quot;{tuple_delimiter}&quot;Cruz&quot;{tuple_delimiter}&quot;Jordan\'s</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">is</span> <span class="pre">in</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.&quot;{tuple_delimiter}&quot;ideological</span> <span class="pre">conflict,</span> <span class="pre">rebellion&quot;{tuple_delimiter}5){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Taylor&quot;{tuple_delimiter}&quot;The</span> <span class="pre">Device&quot;{tuple_delimiter}&quot;Taylor</span> <span class="pre">shows</span> <span class="pre">reverence</span> <span class="pre">towards</span> <span class="pre">the</span> <span class="pre">device,</span> <span class="pre">indicating</span> <span class="pre">its</span> <span class="pre">importance</span> <span class="pre">and</span> <span class="pre">potential</span> <span class="pre">impact.&quot;{tuple_delimiter}&quot;reverence,</span> <span class="pre">technological</span> <span class="pre">significance&quot;{tuple_delimiter}9){record_delimiter}\n#############################\nExample</span> <span class="pre">2:\n\nEntity_types:</span> <span class="pre">[人物,</span> <span class="pre">技术,</span> <span class="pre">任务,</span> <span class="pre">组织,</span> <span class="pre">地点]\nText:\n```\n他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。\n\n随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。\n\n随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的\n```\n#############\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;华盛顿&quot;{tuple_delimiter}&quot;地点&quot;{tuple_delimiter}&quot;华盛顿是正在接收通讯的地方，表明其在决策过程中的重要性。&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;杜尔塞行动&quot;{tuple_delimiter}&quot;任务&quot;{tuple_delimiter}&quot;杜尔塞行动被描述为一项已演变为互动和准备的任务，显示出目标和活动的重大转变。&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;组织&quot;{tuple_delimiter}&quot;团队被描绘成一群从被动观察者转变为积极参与者的人，展示了他们角色的动态变化。&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;华盛顿&quot;{tuple_delimiter}&quot;团队收到来自华盛顿的通讯，这影响了他们的决策过程。&quot;{tuple_delimiter}&quot;决策、外部影响&quot;{tuple_delimiter}7){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;团队&quot;{tuple_delimiter}&quot;杜尔塞行动&quot;{tuple_delimiter}&quot;团队直接参与杜尔塞行动，执行其演变后的目标和活动。&quot;{tuple_delimiter}&quot;任务演变、积极参与&quot;{tuple_delimiter}9){completion_delimiter}\n#############################\nExample</span> <span class="pre">3:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">role,</span> <span class="pre">technology,</span> <span class="pre">organization,</span> <span class="pre">event,</span> <span class="pre">location,</span> <span class="pre">concept]\nText:\n```\ntheir</span> <span class="pre">voice</span> <span class="pre">slicing</span> <span class="pre">through</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">activity.</span> <span class="pre">&quot;Control</span> <span class="pre">may</span> <span class="pre">be</span> <span class="pre">an</span> <span class="pre">illusion</span> <span class="pre">when</span> <span class="pre">facing</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">literally</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules,&quot;</span> <span class="pre">they</span> <span class="pre">stated</span> <span class="pre">stoically,</span> <span class="pre">casting</span> <span class="pre">a</span> <span class="pre">watchful</span> <span class="pre">eye</span> <span class="pre">over</span> <span class="pre">the</span> <span class="pre">flurry</span> <span class="pre">of</span> <span class="pre">data.\n\n&quot;It\'s</span> <span class="pre">like</span> <span class="pre">it\'s</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate,&quot;</span> <span class="pre">offered</span> <span class="pre">Sam</span> <span class="pre">Rivera</span> <span class="pre">from</span> <span class="pre">a</span> <span class="pre">nearby</span> <span class="pre">interface,</span> <span class="pre">their</span> <span class="pre">youthful</span> <span class="pre">energy</span> <span class="pre">boding</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.</span> <span class="pre">&quot;This</span> <span class="pre">gives</span> <span class="pre">talking</span> <span class="pre">to</span> <span class="pre">strangers\'</span> <span class="pre">a</span> <span class="pre">whole</span> <span class="pre">new</span> <span class="pre">meaning.&quot;\n\nAlex</span> <span class="pre">surveyed</span> <span class="pre">his</span> <span class="pre">team—each</span> <span class="pre">face</span> <span class="pre">a</span> <span class="pre">study</span> <span class="pre">in</span> <span class="pre">concentration,</span> <span class="pre">determination,</span> <span class="pre">and</span> <span class="pre">not</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">measure</span> <span class="pre">of</span> <span class="pre">trepidation.</span> <span class="pre">&quot;This</span> <span class="pre">might</span> <span class="pre">well</span> <span class="pre">be</span> <span class="pre">our</span> <span class="pre">first</span> <span class="pre">contact,&quot;</span> <span class="pre">he</span> <span class="pre">acknowledged,</span> <span class="pre">&quot;And</span> <span class="pre">we</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">ready</span> <span class="pre">for</span> <span class="pre">whatever</span> <span class="pre">answers</span> <span class="pre">back.&quot;\n\nTogether,</span> <span class="pre">they</span> <span class="pre">stood</span> <span class="pre">on</span> <span class="pre">the</span> <span class="pre">edge</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">unknown,</span> <span class="pre">forging</span> <span class="pre">humanity\'s</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">heavens.</span> <span class="pre">The</span> <span class="pre">ensuing</span> <span class="pre">silence</span> <span class="pre">was</span> <span class="pre">palpable—a</span> <span class="pre">collective</span> <span class="pre">introspection</span> <span class="pre">about</span> <span class="pre">their</span> <span class="pre">role</span> <span class="pre">in</span> <span class="pre">this</span> <span class="pre">grand</span> <span class="pre">cosmic</span> <span class="pre">play,</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">could</span> <span class="pre">rewrite</span> <span class="pre">human</span> <span class="pre">history.\n\nThe</span> <span class="pre">encrypted</span> <span class="pre">dialogue</span> <span class="pre">continued</span> <span class="pre">to</span> <span class="pre">unfold,</span> <span class="pre">its</span> <span class="pre">intricate</span> <span class="pre">patterns</span> <span class="pre">showing</span> <span class="pre">an</span> <span class="pre">almost</span> <span class="pre">uncanny</span> <span class="pre">anticipation\n```\n#############\nOutput:\n(&quot;entity&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera</span> <span class="pre">is</span> <span class="pre">a</span> <span class="pre">member</span> <span class="pre">of</span> <span class="pre">a</span> <span class="pre">team</span> <span class="pre">working</span> <span class="pre">on</span> <span class="pre">communicating</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence,</span> <span class="pre">showing</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;person&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">leader</span> <span class="pre">of</span> <span class="pre">a</span> <span class="pre">team</span> <span class="pre">attempting</span> <span class="pre">first</span> <span class="pre">contact</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence,</span> <span class="pre">acknowledging</span> <span class="pre">the</span> <span class="pre">significance</span> <span class="pre">of</span> <span class="pre">their</span> <span class="pre">task.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Control&quot;{tuple_delimiter}&quot;concept&quot;{tuple_delimiter}&quot;Control</span> <span class="pre">refers</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">ability</span> <span class="pre">to</span> <span class="pre">manage</span> <span class="pre">or</span> <span class="pre">govern,</span> <span class="pre">which</span> <span class="pre">is</span> <span class="pre">challenged</span> <span class="pre">by</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;concept&quot;{tuple_delimiter}&quot;Intelligence</span> <span class="pre">here</span> <span class="pre">refers</span> <span class="pre">to</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">entity</span> <span class="pre">capable</span> <span class="pre">of</span> <span class="pre">writing</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules</span> <span class="pre">and</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact&quot;{tuple_delimiter}&quot;event&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">potential</span> <span class="pre">initial</span> <span class="pre">communication</span> <span class="pre">between</span> <span class="pre">humanity</span> <span class="pre">and</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;){record_delimiter}\n(&quot;entity&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response&quot;{tuple_delimiter}&quot;event&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response</span> <span class="pre">is</span> <span class="pre">the</span> <span class="pre">collective</span> <span class="pre">action</span> <span class="pre">taken</span> <span class="pre">by</span> <span class="pre">Alex\'s</span> <span class="pre">team</span> <span class="pre">in</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">an</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;Sam</span> <span class="pre">Rivera</span> <span class="pre">is</span> <span class="pre">directly</span> <span class="pre">involved</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">process</span> <span class="pre">of</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate</span> <span class="pre">with</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;communication,</span> <span class="pre">learning</span> <span class="pre">process&quot;{tuple_delimiter}9){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;First</span> <span class="pre">Contact&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">leads</span> <span class="pre">the</span> <span class="pre">team</span> <span class="pre">that</span> <span class="pre">might</span> <span class="pre">be</span> <span class="pre">making</span> <span class="pre">the</span> <span class="pre">First</span> <span class="pre">Contact</span> <span class="pre">with</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;leadership,</span> <span class="pre">exploration&quot;{tuple_delimiter}10){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Alex&quot;{tuple_delimiter}&quot;Humanity\'s</span> <span class="pre">Response&quot;{tuple_delimiter}&quot;Alex</span> <span class="pre">and</span> <span class="pre">his</span> <span class="pre">team</span> <span class="pre">are</span> <span class="pre">the</span> <span class="pre">key</span> <span class="pre">figures</span> <span class="pre">in</span> <span class="pre">Humanity\'s</span> <span class="pre">Response</span> <span class="pre">to</span> <span class="pre">the</span> <span class="pre">unknown</span> <span class="pre">intelligence.&quot;{tuple_delimiter}&quot;collective</span> <span class="pre">action,</span> <span class="pre">cosmic</span> <span class="pre">significance&quot;{tuple_delimiter}8){record_delimiter}\n(&quot;relationship&quot;{tuple_delimiter}&quot;Control&quot;{tuple_delimiter}&quot;Intelligence&quot;{tuple_delimiter}&quot;The</span> <span class="pre">concept</span> <span class="pre">of</span> <span class="pre">Control</span> <span class="pre">is</span> <span class="pre">challenged</span> <span class="pre">by</span> <span class="pre">the</span> <span class="pre">Intelligence</span> <span class="pre">that</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules.&quot;{tuple_delimiter}&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">autonomy&quot;{tuple_delimiter}7){record_delimiter}\n#############################\n-Real</span> <span class="pre">Data-\n######################\nEntity_types:</span> <span class="pre">[{entity_types}]\nText:\n```\n{input_text}\n```\n######################\nOutput:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_CONTINUE_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'MANY</span> <span class="pre">entities</span> <span class="pre">were</span> <span class="pre">missed</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">last</span> <span class="pre">extraction.</span>&#160; <span class="pre">Add</span> <span class="pre">them</span> <span class="pre">below</span> <span class="pre">using</span> <span class="pre">the</span> <span class="pre">same</span> <span class="pre">format:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_IF_LOOP_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'It</span> <span class="pre">appears</span> <span class="pre">some</span> <span class="pre">entities</span> <span class="pre">may</span> <span class="pre">have</span> <span class="pre">still</span> <span class="pre">been</span> <span class="pre">missed.</span>&#160; <span class="pre">Answer</span> <span class="pre">YES</span> <span class="pre">|</span> <span class="pre">NO</span> <span class="pre">if</span> <span class="pre">there</span> <span class="pre">are</span> <span class="pre">still</span> <span class="pre">entities</span> <span class="pre">that</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">added.\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">
+<span class="sig-name descname"><span class="pre">DEFAULT_ENTITY_TYPES</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['organization',</span> <span class="pre">'person',</span> <span class="pre">'geo',</span> <span class="pre">'event']</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_TUPLE_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_RECORD_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'##'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_COMPLETION_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|COMPLETE|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_ENTITY_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;entity&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_RELATION_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;relationship&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__entity__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__relation__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param entity_types: Pre-defined entity types for knowledge graph.
+:param entity_key: The field name to store the entities. It’s</p>
+<blockquote>
+<div><p>“__dj__entity__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>relation_key</strong> – The field name to store the relations between
+entities. It’s “__dj__relation__” in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>prompt_template</strong> – The template of input prompt.</p></li>
+<li><p><strong>tuple_delimiter</strong> – Delimiter to separate items in outputs.</p></li>
+<li><p><strong>record_delimiter</strong> – Delimiter to separate records in outputs.</p></li>
+<li><p><strong>completion_delimiter</strong> – To mark the end of the output.</p></li>
+<li><p><strong>max_gleaning</strong> – the extra max num to call LLM to glean entities
+and relations.</p></li>
+<li><p><strong>continue_prompt</strong> – the prompt for gleaning entities and
+relations.</p></li>
+<li><p><strong>if_loop_prompt</strong> – the prompt to determine whether to stop
+gleaning.</p></li>
+<li><p><strong>entity_pattern</strong> – Regular expression for parsing entity record.</p></li>
+<li><p><strong>relation_pattern</strong> – Regular expression for parsing relation
+record.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message">
+<span class="sig-name descname"><span class="pre">add_message</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">messages</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">role</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">content</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.add_message"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction">
+<span class="sig-name descname"><span class="pre">light_rag_extraction</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">messages</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.light_rag_extraction"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_event_mapper">
+<span id="data-juicer-ops-mapper-extract-event-mapper-module"></span><h2>data_juicer.ops.mapper.extract_event_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_event_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_event_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEventMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__event_description__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__relevant_characters__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract events and relevant characters in the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定一段文本，对文本的情节进行分点总结，并抽取与情节相关的人物。\n要求：\n-</span> <span class="pre">尽量不要遗漏内容，不要添加文本中没有的情节，符合原文事实\n-</span> <span class="pre">联系上下文说明前因后果，但仍然需要符合事实\n-</span> <span class="pre">不要包含主观看法\n-</span> <span class="pre">注意要尽可能保留文本的专有名词\n-</span> <span class="pre">注意相关人物需要在对应情节中出现\n-</span> <span class="pre">只抽取情节中的主要人物，不要遗漏情节的主要人物\n-</span> <span class="pre">总结格式如下：\n###</span> <span class="pre">情节1：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，人物2，人物3，...\n###</span> <span class="pre">情节2：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，人物2，...\n###</span> <span class="pre">情节3：\n-</span> <span class="pre">**情节描述**：</span> <span class="pre">...\n-</span> <span class="pre">**相关人物**：人物1，...\n...\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\#\\#\\#\\s*情节(\\d+)：\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*情节描述\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*相关人物\\*\\*\\s*：\\s*(.*?)(?=\\#\\#\\#|\\Z)\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__event_description__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__relevant_characters__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param event_desc_key: The field name to store the event descriptions.</p>
+<blockquote>
+<div><p>It’s “__dj__event_description__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>relevant_char_key</strong> – The field name to store the relevant
+characters to the events. It’s “__dj__relevant_characters__” in
+default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_keyword_mapper">
+<span id="data-juicer-ops-mapper-extract-keyword-mapper-module"></span><h2>data_juicer.ops.mapper.extract_keyword_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_keyword_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_keyword_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractKeywordMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__keyword__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Generate keywords for the text</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'-Goal-\nGiven</span> <span class="pre">a</span> <span class="pre">text</span> <span class="pre">document</span> <span class="pre">that</span> <span class="pre">is</span> <span class="pre">potentially</span> <span class="pre">relevant</span> <span class="pre">to</span> <span class="pre">this</span> <span class="pre">activity</span> <span class="pre">and</span> <span class="pre">a</span> <span class="pre">list</span> <span class="pre">of</span> <span class="pre">entity</span> <span class="pre">types,</span> <span class="pre">identify</span> <span class="pre">all</span> <span class="pre">entities</span> <span class="pre">of</span> <span class="pre">those</span> <span class="pre">types</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">text</span> <span class="pre">and</span> <span class="pre">all</span> <span class="pre">relationships</span> <span class="pre">among</span> <span class="pre">the</span> <span class="pre">identified</span> <span class="pre">entities.\n\n-Steps-\n1.</span> <span class="pre">Identify</span> <span class="pre">high-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">that</span> <span class="pre">summarize</span> <span class="pre">the</span> <span class="pre">main</span> <span class="pre">concepts,</span> <span class="pre">themes,</span> <span class="pre">or</span> <span class="pre">topics</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">entire</span> <span class="pre">text.</span> <span class="pre">These</span> <span class="pre">should</span> <span class="pre">capture</span> <span class="pre">the</span> <span class="pre">overarching</span> <span class="pre">ideas</span> <span class="pre">present</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">document.\nFormat</span> <span class="pre">the</span> <span class="pre">content-level</span> <span class="pre">key</span> <span class="pre">words</span> <span class="pre">as</span> <span class="pre">(&quot;content_keywords&quot;</span> <span class="pre">&lt;high_level_keywords&gt;)\n\n3.</span> <span class="pre">Return</span> <span class="pre">output</span> <span class="pre">in</span> <span class="pre">the</span> <span class="pre">language</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">given</span> <span class="pre">text.\n\n4.</span> <span class="pre">When</span> <span class="pre">finished,</span> <span class="pre">output</span> <span class="pre">{completion_delimiter}\n\n######################\n-Examples-\n######################\nExample</span> <span class="pre">1:\n\nText:\n```\nwhile</span> <span class="pre">Alex</span> <span class="pre">clenched</span> <span class="pre">his</span> <span class="pre">jaw,</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">frustration</span> <span class="pre">dull</span> <span class="pre">against</span> <span class="pre">the</span> <span class="pre">backdrop</span> <span class="pre">of</span> <span class="pre">Taylor\'s</span> <span class="pre">authoritarian</span> <span class="pre">certainty.</span> <span class="pre">It</span> <span class="pre">was</span> <span class="pre">this</span> <span class="pre">competitive</span> <span class="pre">undercurrent</span> <span class="pre">that</span> <span class="pre">kept</span> <span class="pre">him</span> <span class="pre">alert,</span> <span class="pre">the</span> <span class="pre">sense</span> <span class="pre">that</span> <span class="pre">his</span> <span class="pre">and</span> <span class="pre">Jordan\'s</span> <span class="pre">shared</span> <span class="pre">commitment</span> <span class="pre">to</span> <span class="pre">discovery</span> <span class="pre">was</span> <span class="pre">an</span> <span class="pre">unspoken</span> <span class="pre">rebellion</span> <span class="pre">against</span> <span class="pre">Cruz\'s</span> <span class="pre">narrowing</span> <span class="pre">vision</span> <span class="pre">of</span> <span class="pre">control</span> <span class="pre">and</span> <span class="pre">order.\n\nThen</span> <span class="pre">Taylor</span> <span class="pre">did</span> <span class="pre">something</span> <span class="pre">unexpected.</span> <span class="pre">They</span> <span class="pre">paused</span> <span class="pre">beside</span> <span class="pre">Jordan</span> <span class="pre">and,</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">moment,</span> <span class="pre">observed</span> <span class="pre">the</span> <span class="pre">device</span> <span class="pre">with</span> <span class="pre">something</span> <span class="pre">akin</span> <span class="pre">to</span> <span class="pre">reverence.</span> <span class="pre">“If</span> <span class="pre">this</span> <span class="pre">tech</span> <span class="pre">can</span> <span class="pre">be</span> <span class="pre">understood...&quot;</span> <span class="pre">Taylor</span> <span class="pre">said,</span> <span class="pre">their</span> <span class="pre">voice</span> <span class="pre">quieter,</span> <span class="pre">&quot;It</span> <span class="pre">could</span> <span class="pre">change</span> <span class="pre">the</span> <span class="pre">game</span> <span class="pre">for</span> <span class="pre">us.</span> <span class="pre">For</span> <span class="pre">all</span> <span class="pre">of</span> <span class="pre">us.”\n\nThe</span> <span class="pre">underlying</span> <span class="pre">dismissal</span> <span class="pre">earlier</span> <span class="pre">seemed</span> <span class="pre">to</span> <span class="pre">falter,</span> <span class="pre">replaced</span> <span class="pre">by</span> <span class="pre">a</span> <span class="pre">glimpse</span> <span class="pre">of</span> <span class="pre">reluctant</span> <span class="pre">respect</span> <span class="pre">for</span> <span class="pre">the</span> <span class="pre">gravity</span> <span class="pre">of</span> <span class="pre">what</span> <span class="pre">lay</span> <span class="pre">in</span> <span class="pre">their</span> <span class="pre">hands.</span> <span class="pre">Jordan</span> <span class="pre">looked</span> <span class="pre">up,</span> <span class="pre">and</span> <span class="pre">for</span> <span class="pre">a</span> <span class="pre">fleeting</span> <span class="pre">heartbeat,</span> <span class="pre">their</span> <span class="pre">eyes</span> <span class="pre">locked</span> <span class="pre">with</span> <span class="pre">Taylor\'s,</span> <span class="pre">a</span> <span class="pre">wordless</span> <span class="pre">clash</span> <span class="pre">of</span> <span class="pre">wills</span> <span class="pre">softening</span> <span class="pre">into</span> <span class="pre">an</span> <span class="pre">uneasy</span> <span class="pre">truce.\n\nIt</span> <span class="pre">was</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">transformation,</span> <span class="pre">barely</span> <span class="pre">perceptible,</span> <span class="pre">but</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">Alex</span> <span class="pre">noted</span> <span class="pre">with</span> <span class="pre">an</span> <span class="pre">inward</span> <span class="pre">nod.</span> <span class="pre">They</span> <span class="pre">had</span> <span class="pre">all</span> <span class="pre">been</span> <span class="pre">brought</span> <span class="pre">here</span> <span class="pre">by</span> <span class="pre">different</span> <span class="pre">paths\n```\n################\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;power</span> <span class="pre">dynamics,</span> <span class="pre">ideological</span> <span class="pre">conflict,</span> <span class="pre">discovery,</span> <span class="pre">rebellion&quot;){completion_delimiter}\n#############################\nExample</span> <span class="pre">2:\n\nText:\n```\n他们不再是单纯的执行者；他们已成为某个超越星辰与条纹的领域的信息守护者。这一使命的提升不能被规则和既定协议所束缚——它需要一种新的视角，一种新的决心。\n\n随着与华盛顿的通讯在背景中嗡嗡作响，对话中的紧张情绪通过嘟嘟声和静电噪音贯穿始终。团队站立着，一股不祥的气息笼罩着他们。显然，他们在接下来几个小时内做出的决定可能会重新定义人类在宇宙中的位置，或者将他们置于无知和潜在危险之中。\n\n随着与星辰的联系变得更加牢固，小组开始处理逐渐成形的警告，从被动接受者转变为积极参与者。梅瑟后来的直觉占据了上风——团队的任务已经演变，不再仅仅是观察和报告，而是互动和准备。一场蜕变已经开始，而“杜尔塞行动”则以他们大胆的新频率震动，这种基调不是由世俗设定的\n```\n#############\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;任务演变,</span> <span class="pre">决策制定,</span> <span class="pre">积极参与,</span> <span class="pre">宇宙意义&quot;){completion_delimiter}\n#############################\nExample</span> <span class="pre">3:\n\nEntity_types:</span> <span class="pre">[person,</span> <span class="pre">role,</span> <span class="pre">technology,</span> <span class="pre">organization,</span> <span class="pre">event,</span> <span class="pre">location,</span> <span class="pre">concept]\nText:\n```\ntheir</span> <span class="pre">voice</span> <span class="pre">slicing</span> <span class="pre">through</span> <span class="pre">the</span> <span class="pre">buzz</span> <span class="pre">of</span> <span class="pre">activity.</span> <span class="pre">&quot;Control</span> <span class="pre">may</span> <span class="pre">be</span> <span class="pre">an</span> <span class="pre">illusion</span> <span class="pre">when</span> <span class="pre">facing</span> <span class="pre">an</span> <span class="pre">intelligence</span> <span class="pre">that</span> <span class="pre">literally</span> <span class="pre">writes</span> <span class="pre">its</span> <span class="pre">own</span> <span class="pre">rules,&quot;</span> <span class="pre">they</span> <span class="pre">stated</span> <span class="pre">stoically,</span> <span class="pre">casting</span> <span class="pre">a</span> <span class="pre">watchful</span> <span class="pre">eye</span> <span class="pre">over</span> <span class="pre">the</span> <span class="pre">flurry</span> <span class="pre">of</span> <span class="pre">data.\n\n&quot;It\'s</span> <span class="pre">like</span> <span class="pre">it\'s</span> <span class="pre">learning</span> <span class="pre">to</span> <span class="pre">communicate,&quot;</span> <span class="pre">offered</span> <span class="pre">Sam</span> <span class="pre">Rivera</span> <span class="pre">from</span> <span class="pre">a</span> <span class="pre">nearby</span> <span class="pre">interface,</span> <span class="pre">their</span> <span class="pre">youthful</span> <span class="pre">energy</span> <span class="pre">boding</span> <span class="pre">a</span> <span class="pre">mix</span> <span class="pre">of</span> <span class="pre">awe</span> <span class="pre">and</span> <span class="pre">anxiety.</span> <span class="pre">&quot;This</span> <span class="pre">gives</span> <span class="pre">talking</span> <span class="pre">to</span> <span class="pre">strangers\'</span> <span class="pre">a</span> <span class="pre">whole</span> <span class="pre">new</span> <span class="pre">meaning.&quot;\n\nAlex</span> <span class="pre">surveyed</span> <span class="pre">his</span> <span class="pre">team—each</span> <span class="pre">face</span> <span class="pre">a</span> <span class="pre">study</span> <span class="pre">in</span> <span class="pre">concentration,</span> <span class="pre">determination,</span> <span class="pre">and</span> <span class="pre">not</span> <span class="pre">a</span> <span class="pre">small</span> <span class="pre">measure</span> <span class="pre">of</span> <span class="pre">trepidation.</span> <span class="pre">&quot;This</span> <span class="pre">might</span> <span class="pre">well</span> <span class="pre">be</span> <span class="pre">our</span> <span class="pre">first</span> <span class="pre">contact,&quot;</span> <span class="pre">he</span> <span class="pre">acknowledged,</span> <span class="pre">&quot;And</span> <span class="pre">we</span> <span class="pre">need</span> <span class="pre">to</span> <span class="pre">be</span> <span class="pre">ready</span> <span class="pre">for</span> <span class="pre">whatever</span> <span class="pre">answers</span> <span class="pre">back.&quot;\n\nTogether,</span> <span class="pre">they</span> <span class="pre">stood</span> <span class="pre">on</span> <span class="pre">the</span> <span class="pre">edge</span> <span class="pre">of</span> <span class="pre">the</span> <span class="pre">unknown,</span> <span class="pre">forging</span> <span class="pre">humanity\'s</span> <span class="pre">response</span> <span class="pre">to</span> <span class="pre">a</span> <span class="pre">message</span> <span class="pre">from</span> <span class="pre">the</span> <span class="pre">heavens.</span> <span class="pre">The</span> <span class="pre">ensuing</span> <span class="pre">silence</span> <span class="pre">was</span> <span class="pre">palpable—a</span> <span class="pre">collective</span> <span class="pre">introspection</span> <span class="pre">about</span> <span class="pre">their</span> <span class="pre">role</span> <span class="pre">in</span> <span class="pre">this</span> <span class="pre">grand</span> <span class="pre">cosmic</span> <span class="pre">play,</span> <span class="pre">one</span> <span class="pre">that</span> <span class="pre">could</span> <span class="pre">rewrite</span> <span class="pre">human</span> <span class="pre">history.\n\nThe</span> <span class="pre">encrypted</span> <span class="pre">dialogue</span> <span class="pre">continued</span> <span class="pre">to</span> <span class="pre">unfold,</span> <span class="pre">its</span> <span class="pre">intricate</span> <span class="pre">patterns</span> <span class="pre">showing</span> <span class="pre">an</span> <span class="pre">almost</span> <span class="pre">uncanny</span> <span class="pre">anticipation\n```\n#############\nOutput:\n(&quot;content_keywords&quot;</span> <span class="pre">&quot;first</span> <span class="pre">contact,</span> <span class="pre">control,</span> <span class="pre">communication,</span> <span class="pre">cosmic</span> <span class="pre">significance&quot;){completion_delimiter}\n-Real</span> <span class="pre">Data-\n######################\nText:\n```\n{input_text}\n```\n######################\nOutput:\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">
+<span class="sig-name descname"><span class="pre">DEFAULT_COMPLETION_DELIMITER</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|COMPLETE|&gt;'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\\(&quot;content_keywords&quot;(.*?)\\)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__keyword__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param keyword_key: The field name to store the keywords. It’s</p>
+<blockquote>
+<div><p>“__dj__keyword__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>prompt_template</strong> – The template of input prompt.</p></li>
+<li><p><strong>completion_delimiter</strong> – To mark the end of the output.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing keywords.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_nickname_mapper">
+<span id="data-juicer-ops-mapper-extract-nickname-mapper-module"></span><h2>data_juicer.ops.mapper.extract_nickname_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_nickname_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_nickname_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractNicknameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__nickname__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract nickname relationship in the text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定你一段文本，你的任务是将人物之间的称呼方式（昵称）提取出来。\n要求：\n-</span> <span class="pre">需要给出说话人对被称呼人的称呼，不要搞反了。\n-</span> <span class="pre">相同的说话人和被称呼人最多给出一个最常用的称呼。\n-</span> <span class="pre">请不要输出互相没有昵称的称呼方式。\n-</span> <span class="pre">输出格式如下：\n```\n###</span> <span class="pre">称呼方式1\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n###</span> <span class="pre">称呼方式2\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n###</span> <span class="pre">称呼方式3\n-</span> <span class="pre">**说话人**：...\n-</span> <span class="pre">**被称呼人**：...\n-</span> <span class="pre">**...对...的昵称**：...\n...\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'#</span> <span class="pre">文本\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\#\\#\\#\\s*称呼方式(\\d+)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*说话人\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*被称呼人\\*\\*\\s*：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">-\\s*\\*\\*(.*?)对(.*?)的昵称\\*\\*\\s*：\\s*(.*?)(?=\\#\\#\\#|\\Z)</span> <span class="pre">#</span> <span class="pre">for</span> <span class="pre">double</span> <span class="pre">check\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__nickname__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param nickname_key: The field name to store the nickname</p>
+<blockquote>
+<div><p>relationship. It’s “__dj__nickname__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.extract_support_text_mapper">
+<span id="data-juicer-ops-mapper-extract-support-text-mapper-module"></span><h2>data_juicer.ops.mapper.extract_support_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.extract_support_text_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.extract_support_text_mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractSupportTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__event_description__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__support_text__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Extract support sub text for a summary.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'你将扮演一个文本摘录助手的角色。你的主要任务是基于给定的文章（称为“原文”）以及对原文某个部分的简短描述或总结（称为“总结”），准确地识别并提取出与该总结相对应的原文片段。\n要求：\n-</span> <span class="pre">你需要尽可能精确地匹配到最符合总结内容的那部分内容\n-</span> <span class="pre">如果存在多个可能的答案，请选择最贴近总结意思的那个\n-</span> <span class="pre">下面是一个例子帮助理解这一过程：\n###</span> <span class="pre">原文：\n《红楼梦》是中国古典小说四大名著之一，由清代作家曹雪芹创作。它讲述了贾宝玉、林黛玉等人的爱情故事及四大家族的兴衰历程。书中通过复杂的人物关系展现了封建社会的各种矛盾冲突。其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐之间的争斗，生动描绘了权力争夺下的女性形象。此外，《红楼梦》还以其精美的诗词闻名，这些诗词不仅增添了文学色彩，也深刻反映了人物的性格特点和命运走向。\n\n###</span> <span class="pre">总结：\n描述了书中的两个女性角色之间围绕权力展开的竞争。\n\n###</span> <span class="pre">原文摘录：\n其中关于贾府内部斗争的部分尤其精彩，特别是王熙凤与尤二姐之间的争斗，生动描绘了权力争夺下的女性形象。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'###</span> <span class="pre">原文：\n{text}\n\n###</span> <span class="pre">总结：\n{summary}\n\n###</span> <span class="pre">原文摘录：\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__event_description__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__support_text__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param summary_key: The field name to store the input summary.</p>
+<blockquote>
+<div><p>Support for nested keys such as “__dj__stats__.text_len”.
+It’s “__dj__event_description__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>support_text_key</strong> – The field name to store the output
+support text for the summary. It’s “__dj__support_text__” in
+default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.fix_unicode_mapper">
+<span id="data-juicer-ops-mapper-fix-unicode-mapper-module"></span><h2>data_juicer.ops.mapper.fix_unicode_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.fix_unicode_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.fix_unicode_mapper.</span></span><span class="sig-name descname"><span class="pre">FixUnicodeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to fix unicode errors in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>normalization</strong> – the specified form of Unicode
+normalization mode, which can be one of
+[‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’], default ‘NFC’.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">
+<span id="data-juicer-ops-mapper-generate-qa-from-examples-mapper-module"></span><h2>data_juicer.ops.mapper.generate_qa_from_examples_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.generate_qa_from_examples_mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromExamplesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate question and answer pairs from examples.
+You should configure an empty dataset in your yaml config file:
+<a href="#id1"><span class="problematic" id="id2">``</span></a>`
+generated_dataset_config:</p>
+<blockquote>
+<div><p>type: ‘EmptyFormatter’  # use <cite>RayEmptyFormatter</cite> when enable ray
+length: ${The number of generated samples}
+feature_keys: ${text key}</p>
+</div></blockquote>
+<p><a href="#id3"><span class="problematic" id="id4">``</span></a>`
+The number of samples generated is determined by
+the length of the empty dataset.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请你仔细观察多个示例数据的输入和输出，按照你的理解，总结出相应规矩，然后写出一个新的【问题】和【回答】。注意，新生成的【问题】和【回答】需要满足如下要求：\n1.</span> <span class="pre">生成的【问题】和【回答】不能与输入的【问题】和【回答】一致，但是需要保持格式相同。\n2.</span> <span class="pre">生成的【问题】不一定要局限于输入【问题】的话题或领域，生成的【回答】需要正确回答生成的【问题】。\n3.</span> <span class="pre">提供的【问题】和【回答】可能是多轮对话，生成的【问题】和【回答】也可以是多轮，但是需要保持格式相同。\n4.</span> <span class="pre">生成的【问题】和【回答】必须成对出现，而且【问题】需要在【回答】之前。\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_EXAMPLE_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n如下是一条示例数据：\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】(.*?)【回答】(.*?)(?=【问题】|$)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID.</p></li>
+<li><p><strong>seed_file</strong> – Path to the seed file in chatml format.</p></li>
+<li><p><strong>example_num</strong> – The number of selected examples.
+Randomly select N examples from “seed_file” and
+put them into prompt as QA examples.</p></li>
+<li><p><strong>similarity_threshold</strong> – The similarity score threshold
+between the generated samples and the seed examples.
+Range from 0 to 1. Samples with similarity score less than
+this threshold will be kept.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the generation task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the input prompt. It must
+include one placeholder ‘{}’, which will be replaced by
+<cite>example_num</cite> formatted examples defined by <cite>example_template</cite>.</p></li>
+<li><p><strong>example_template</strong> – Template for formatting one QA example. It
+must include one placeholder ‘{}’, which will be replaced by one
+formatted qa_pair.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting a single QA pair
+within each example. Must include two placeholders ‘{}’ for the
+question and answer.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract questions
+and answers from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use vllm for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">qa_examples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.generate_qa_from_text_mapper">
+<span id="data-juicer-ops-mapper-generate-qa-from-text-mapper-module"></span><h2>data_juicer.ops.mapper.generate_qa_from_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.generate_qa_from_text_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.generate_qa_from_text_mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate question and answer pairs from text.
+Recommended model list: [</p>
+<blockquote>
+<div><p>‘alibaba-pai/pai-llama3-8b-doc2qa’,
+‘alibaba-pai/pai-baichuan2-7b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-4b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-7b-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-1b8-doc2qa’,
+‘alibaba-pai/pai-qwen1_5-0b5-doc2qa’</p>
+</div></blockquote>
+<p>]
+These recommended models are all trained with Chinese data
+and are suitable for Chinese.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugginface model ID.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract
+questions and answers from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use vllm for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation,
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+<p>The default data format parsed by this interface is as follows:
+Model Input:</p>
+<blockquote>
+<div><p>蒙古国的首都是乌兰巴托（Ulaanbaatar）
+冰岛的首都是雷克雅未克（Reykjavik）</p>
+</div></blockquote>
+<dl class="simple">
+<dt>Model Output:</dt><dd><p>蒙古国的首都是乌兰巴托（Ulaanbaatar）
+冰岛的首都是雷克雅未克（Reykjavik）
+Human: 请问蒙古国的首都是哪里？
+Assistant: 你好，根据提供的信息，蒙古国的首都是乌兰巴托（Ulaanbaatar）。
+Human: 冰岛的首都是哪里呢？
+Assistant: 冰岛的首都是雷克雅未克（Reykjavik）。
+…</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_blur_mapper">
+<span id="data-juicer-ops-mapper-image-blur-mapper-module"></span><h2>data_juicer.ops.mapper.image_blur_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_blur_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_blur_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur images.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>p</strong> – Probability of the image being blured.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">
+<span id="data-juicer-ops-mapper-image-captioning-from-gpt4v-mapper-module"></span><h2>data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.</span></span><span class="sig-name descname"><span class="pre">call_gpt_vision_api</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">base64_image</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_tokens</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'gpt-4-vision-preview'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#call_gpt_vision_api"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningFromGPT4VMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose texts are generated based on
+gpt-4-visison and the image.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>mode</strong> – mode of text generated from images, can be one of
+[‘resoning’, ‘description’, ‘conversation’, ‘custom’]</p></li>
+<li><p><strong>api_key</strong> – the API key to authenticate the request.</p></li>
+<li><p><strong>max_token</strong> – the maximum number of tokens to generate.
+Default is 500.</p></li>
+<li><p><strong>temperature</strong> – controls the randomness of the output (range
+from 0 to 1). Default is 0.</p></li>
+<li><p><strong>system_prompt</strong> – a string prompt used to set the context of a
+conversation and provide global guidance or rules for the
+gpt4-vision so that it can  generate responses in the expected way.
+If <cite>mode</cite> set to <cite>custom</cite>, the parameter will be used.</p></li>
+<li><p><strong>user_prompt</strong> – a string prompt to guide the generation of
+gpt4-vision for each samples. It’s “” in default, which means no
+prompt provided.</p></li>
+<li><p><strong>uers_prompt_key</strong> – the key name of fields in samples to store
+prompts for each sample. It’s used for set different prompts for
+different samples. If it’s none, use prompt in parameter “prompt”.
+It’s None in default.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated text in the
+final datasets and the original text will be removed. It’s True
+in default.</p></li>
+<li><p><strong>any_or_all</strong> – keep this sample with ‘any’ or ‘all’ strategy of
+all images. ‘any’: keep this sample if any images meet the
+condition. ‘all’: keep this sample only if all images meet the
+condition.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_captioning_mapper">
+<span id="data-juicer-ops-mapper-image-captioning-mapper-module"></span><h2>data_juicer.ops.mapper.image_captioning_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_captioning_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_captioning_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+another model and the figure.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each image</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of blip2 model
+for all samples globally. It’s None in default, which means no
+prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_diffusion_mapper">
+<span id="data-juicer-ops-mapper-image-diffusion-mapper-module"></span><h2>data_juicer.ops.mapper.image_diffusion_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_diffusion_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_diffusion_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageDiffusionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Generate image by diffusion model</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_diffusion</strong> – diffusion model name on huggingface to generate
+the image.</p></li>
+<li><p><strong>torch_dtype</strong> – the floating point type used to load the diffusion
+model. Can be one of [‘fp32’, ‘fp16’, ‘bf16’]</p></li>
+<li><p><strong>revision</strong> – The specific model version to use. It can be a
+branch name, a tag name, a commit id, or any identifier allowed
+by Git.</p></li>
+<li><p><strong>strength</strong> – Indicates extent to transform the reference image.
+Must be between 0 and 1. image is used as a starting point and
+more noise is added the higher the strength. The number of
+denoising steps depends on the amount of noise initially added.
+When strength is 1, added noise is maximum and the denoising
+process runs for the full number of iterations specified in
+num_inference_steps. A value of 1 essentially ignores image.</p></li>
+<li><p><strong>guidance_scale</strong> – A higher guidance scale value encourages the
+model to generate images closely linked to the text prompt at the
+expense of lower image quality. Guidance scale is enabled when
+guidance_scale &gt; 1.</p></li>
+<li><p><strong>aug_num</strong> – The image number to be produced by stable-diffusion
+model.</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>caption_key</strong> – the key name of fields in samples to store captions
+for each images. It can be a string if there is only one image in
+each sample. Otherwise, it should be a list. If it’s none,
+ImageDiffusionMapper will produce captions for each images.</p></li>
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption if
+caption_key is None.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote aug_num as $M$.
+the number of total samples after generation is  $(1+M)Nb$.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_face_blur_mapper">
+<span id="data-juicer-ops-mapper-image-face-blur-mapper-module"></span><h2>data_juicer.ops.mapper.image_face_blur_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_face_blur_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_face_blur_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur faces detected in images.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.image_tagging_mapper">
+<span id="data-juicer-ops-mapper-image-tagging-mapper-module"></span><h2>data_juicer.ops.mapper.image_tagging_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.image_tagging_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.image_tagging_mapper.</span></span><span class="sig-name descname"><span class="pre">ImageTaggingMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__image_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate image tags.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__image_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param tag_field_name: the field name to store the tags. It’s</p>
+<blockquote>
+<div><p>“__dj__image_tags__” in default.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.nlpaug_en_mapper">
+<span id="data-juicer-ops-mapper-nlpaug-en-mapper-module"></span><h2>data_juicer.ops.mapper.nlpaug_en_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.nlpaug_en_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.nlpaug_en_mapper.</span></span><span class="sig-name descname"><span class="pre">NlpaugEnMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to simply augment samples in English based on nlpaug library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated texts in the final
+datasets and the original texts will be removed. It’s True in
+default.</p></li>
+<li><p><strong>delete_random_word</strong> – whether to open the augmentation method of
+deleting random words from the original texts. e.g. “I love LLM”
+–&gt; “I LLM”</p></li>
+<li><p><strong>swap_random_word</strong> – whether to open the augmentation method of
+swapping random contiguous words in the original texts. e.g. “I
+love LLM” –&gt; “Love I LLM”</p></li>
+<li><p><strong>spelling_error_word</strong> – whether to open the augmentation method of
+simulating the spelling error for words in the original texts. e.g.
+“I love LLM” –&gt; “Ai love LLM”</p></li>
+<li><p><strong>split_random_word</strong> – whether to open the augmentation method of
+splitting words randomly with whitespaces in the original texts.
+e.g. “I love LLM” –&gt; “I love LL M”</p></li>
+<li><p><strong>keyboard_error_char</strong> – whether to open the augmentation method of
+simulating the keyboard error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I ;ov4 LLM”</p></li>
+<li><p><strong>ocr_error_char</strong> – whether to open the augmentation method of
+simulating the OCR error for characters in the original texts.
+e.g. “I love LLM” –&gt; “I 10ve LLM”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g. “I love
+LLM” –&gt; “I oe LLM”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts.
+e.g. “I love LLM” –&gt; “I ovle LLM”</p></li>
+<li><p><strong>insert_random_char</strong> – whether to open the augmentation method of
+inserting random characters into the original texts. e.g. “I love
+LLM” –&gt; “I ^lKove LLM”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.nlpcda_zh_mapper">
+<span id="data-juicer-ops-mapper-nlpcda-zh-mapper-module"></span><h2>data_juicer.ops.mapper.nlpcda_zh_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.nlpcda_zh_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.nlpcda_zh_mapper.</span></span><span class="sig-name descname"><span class="pre">NlpcdaZhMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to simply augment samples in Chinese based on nlpcda library.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method. All augmentation methods use default parameters
+in default. We recommend you to only use 1-3 augmentation methods at a
+time. Otherwise, the semantics of samples might be changed
+significantly. <strong>Notice</strong>: some augmentation method might not work for
+some special texts, so there might be no augmented texts generated.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>sequential</strong> – whether combine all augmentation methods to a
+sequence. If it’s True, a sample will be augmented by all opened
+augmentation methods sequentially. If it’s False, each opened
+augmentation method would generate its augmented samples
+independently.</p></li>
+<li><p><strong>aug_num</strong> – number of augmented samples to be generated. If
+<cite>sequential</cite> is True, there will be total aug_num augmented samples
+generated. If it’s False, there will be (aug_num *
+#opened_aug_method) augmented samples generated.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated texts in the final
+datasets and the original texts will be removed. It’s True in
+default.</p></li>
+<li><p><strong>replace_similar_word</strong> – whether to open the augmentation method of
+replacing random words with their similar words in the original
+texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这边一共有5种不同的数据增强方法”</p></li>
+<li><p><strong>replace_homophone_char</strong> – whether to open the augmentation method
+of replacing random characters with their homophones in the
+original texts. e.g. “这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的濖据增强方法”</p></li>
+<li><p><strong>delete_random_char</strong> – whether to open the augmentation method of
+deleting random characters from the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据增强”</p></li>
+<li><p><strong>swap_random_char</strong> – whether to open the augmentation method of
+swapping random contiguous characters in the original texts. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有5种不同的数据强增方法”</p></li>
+<li><p><strong>replace_equivalent_num</strong> – whether to open the augmentation method
+of replacing random numbers with their equivalent representations
+in the original texts. <strong>Notice</strong>: Only for numbers for now. e.g.
+“这里一共有5种不同的数据增强方法” –&gt; “这里一共有伍种不同的数据增强方法”</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.optimize_qa_mapper">
+<span id="data-juicer-ops-mapper-optimize-qa-mapper-module"></span><h2>data_juicer.ops.mapper.optimize_qa_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.optimize_qa_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.optimize_qa_mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to optimize question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请优化输入的问答对，使【问题】和【回答】都更加详细、准确。必须按照以下标记格式，直接输出优化后的问答对：\n【问题】\n优化后的问题\n【回答】\n优化后的回答'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'以下是原始问答对：\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_QA_PAIR_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【问题】\n{}\n【回答】\n{}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'.*?【问题】\\s*(.*?)\\s*【回答】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_model</strong> – Hugging Face model ID.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the optimization task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the input for the model.
+Please make sure the template contains one placeholder ‘{}’, which
+corresponds to the question and answer pair generated by
+param <cite>qa_pair_template</cite>.</p></li>
+<li><p><strong>qa_pair_template</strong> – Template for formatting the question and
+answer pair. Please make sure the template contains two
+‘{}’ to format question and answer.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression pattern to extract question
+and answer from model response.</p></li>
+<li><p><strong>enable_vllm</strong> – Whether to use VLLM for inference acceleration.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the model.</p></li>
+<li><p><strong>sampling_params</strong> – Sampling parameters for text generation (e.g.,
+{‘temperature’: 0.9, ‘top_p’: 0.95}).</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.optimize_query_mapper">
+<span id="data-juicer-ops-mapper-optimize-query-mapper-module"></span><h2>data_juicer.ops.mapper.optimize_query_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.optimize_query_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.optimize_query_mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<p>Mapper to optimize query in question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'优化问答对中的【问题】，将其更加详细具体，但仍可以由原答案回答。只输出优化后的【问题】，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.optimize_response_mapper">
+<span id="data-juicer-ops-mapper-optimize-response-mapper-module"></span><h2>data_juicer.ops.mapper.optimize_response_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.optimize_response_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.optimize_response_mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<p>Mapper to optimize response in question-answer pairs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'请优化问答对中的回答，将其更加详细具体，但仍可以回答原问题。只输出优化后的回答，不要输出多余内容。'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.pair_preference_mapper">
+<span id="data-juicer-ops-mapper-pair-preference-mapper-module"></span><h2>data_juicer.ops.mapper.pair_preference_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.pair_preference_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.pair_preference_mapper.</span></span><span class="sig-name descname"><span class="pre">PairPreferenceMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to construct paired preference samples.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'你的任务是根据参考信息修改问答对中的回答，在语言风格、事实性、人物身份、立场等任一方面与原回答相反。必须按照以下标记格式输出，不要输出其他多余内容。\n【回答】\n生成的新回答\n【原因】\n生成该回答的原因'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'【参考信息】\n{reference}\n\n以下是原始问答对：\n【问题】\n{query}\n【回答】\n{response}'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'.*?【回答】\\s*(.*?)\\s*【原因】\\s*(.*)'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>api_model</strong> – API model name.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt</strong> – System prompt for guiding the generation task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input. It must
+contain placeholders ‘{query}’ and ‘{reponse}’, and can optionally
+include ‘{reference}’.</p></li>
+<li><p><strong>output_pattern</strong> – Regular expression for parsing model output.</p></li>
+<li><p><strong>rejected_key</strong> – The field name in the sample to store the
+generated rejected response. Defaults to ‘rejected_response’.</p></li>
+<li><p><strong>reason_key</strong> – The field name in the sample to store the reason for
+generating the response. Defaults to ‘reason’.</p></li>
+<li><p><strong>try_num</strong> – The number of retries for the API call in case of
+response parsing failure. Defaults to 3.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input">
+<span class="sig-name descname"><span class="pre">build_input</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.build_input"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.punctuation_normalization_mapper">
+<span id="data-juicer-ops-mapper-punctuation-normalization-mapper-module"></span><h2>data_juicer.ops.mapper.punctuation_normalization_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.punctuation_normalization_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.punctuation_normalization_mapper.</span></span><span class="sig-name descname"><span class="pre">PunctuationNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to normalize unicode punctuations to English punctuations in text
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.python_file_mapper">
+<span id="data-juicer-ops-mapper-python-file-mapper-module"></span><h2>data_juicer.ops.mapper.python_file_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.python_file_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.python_file_mapper.</span></span><span class="sig-name descname"><span class="pre">PythonFileMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper for executing Python function defined in a file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>file_path</strong> – The path to the Python file containing the function
+to be executed.</p></li>
+<li><p><strong>function_name</strong> – The name of the function defined in the file
+to be executed.</p></li>
+<li><p><strong>batched</strong> – A boolean indicating whether to process input data in
+batches.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments passed to the parent class.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>Invoke the loaded function with the provided sample.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><p>Invoke the loaded function with the provided samples.</p>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.python_lambda_mapper">
+<span id="data-juicer-ops-mapper-python-lambda-mapper-module"></span><h2>data_juicer.ops.mapper.python_lambda_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.python_lambda_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.python_lambda_mapper.</span></span><span class="sig-name descname"><span class="pre">PythonLambdaMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper for executing Python lambda function on data samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lambda_str</strong> – A string representation of the lambda function to be
+executed on data samples. If empty, the identity function is used.</p></li>
+<li><p><strong>batched</strong> – A boolean indicating whether to process input data in
+batches.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments passed to the parent class.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.relation_identity_mapper">
+<span id="data-juicer-ops-mapper-relation-identity-mapper-module"></span><h2>data_juicer.ops.mapper.relation_identity_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.relation_identity_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.relation_identity_mapper.</span></span><span class="sig-name descname"><span class="pre">RelationIdentityMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>identify relation between two entity in the text.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_SYSTEM_PROMPT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'给定关于{entity1}和{entity2}的文本信息。判断{entity1}和{entity2}之间的关系。\n要求：\n-</span> <span class="pre">关系用一个或多个词语表示，必要时可以加一个形容词来描述这段关系\n-</span> <span class="pre">输出关系时不要参杂任何标点符号\n-</span> <span class="pre">需要你进行合理的推理才能得出结论\n-</span> <span class="pre">如果两个人物身份是同一个人，输出关系为：另一个身份\n-</span> <span class="pre">输出格式为：\n分析推理：...\n所以{entity2}是{entity1}的：...\n-</span> <span class="pre">注意输出的是{entity2}是{entity1}的什么关系，而不是{entity1}是{entity2}的什么关系'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_INPUT_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'关于{entity1}和{entity2}的文本信息：\n```\n{text}\n```\n'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">
+<span class="sig-name descname"><span class="pre">DEFAULT_OUTPUT_PATTERN_TEMPLATE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\s*分析推理：\\s*(.*?)\\s*\n</span>&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span class="pre">\\s*所以{entity2}是{entity1}的：\\s*(.*?)\\Z\n</span>&#160;&#160;&#160; <span class="pre">'</span></em><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param api_model: API model name.
+:param source_entity: The source entity of the relation to be</p>
+<blockquote>
+<div><p>identified.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>target_entity</strong> – The target entity of the relation to be
+identified.</p></li>
+<li><p><strong>input_key</strong> – The input field key in the samples. Support for
+nested keys such as “__dj__stats__.text_len”. It is text_key
+in default.</p></li>
+<li><p><strong>output_key</strong> – The output field key in the samples. Support
+for nested keys such as “__dj__stats__.text_len”. It is
+input_key in default.</p></li>
+<li><p><strong>api_endpoint</strong> – URL endpoint for the API.</p></li>
+<li><p><strong>response_path</strong> – Path to extract content from the API response.
+Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>system_prompt_template</strong> – System prompt template for the task.</p></li>
+<li><p><strong>input_template</strong> – Template for building the model input.</p></li>
+<li><p><strong>output_pattern_template</strong> – Regular expression template for
+parsing model output.</p></li>
+<li><p><strong>try_num</strong> – The number of retry attempts when there is an API
+call error or output parsing error.</p></li>
+<li><p><strong>drop_text</strong> – If drop the text in the output.</p></li>
+<li><p><strong>model_params</strong> – Parameters for initializing the API model.</p></li>
+<li><p><strong>sampling_params</strong> – Extra parameters passed to the API call.
+e.g {‘temperature’: 0.9, ‘top_p’: 0.95}</p></li>
+<li><p><strong>kwargs</strong> – Extra keyword arguments.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output">
+<span class="sig-name descname"><span class="pre">parse_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">raw_output</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.parse_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_bibliography_mapper">
+<span id="data-juicer-ops-mapper-remove-bibliography-mapper-module"></span><h2>data_juicer.ops.mapper.remove_bibliography_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_bibliography_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_bibliography_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveBibliographyMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove bibliography at the end of documents in Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_comments_mapper">
+<span id="data-juicer-ops-mapper-remove-comments-mapper-module"></span><h2>data_juicer.ops.mapper.remove_comments_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_comments_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_comments_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveCommentsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove comments in different kinds of documents.</p>
+<p>Only support ‘tex’ for now.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>doc_type</strong> – Type of document to remove comments.</p></li>
+<li><p><strong>inline</strong> – Whether to remove inline comments.</p></li>
+<li><p><strong>multiline</strong> – Whether to remove multiline comments.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_header_mapper">
+<span id="data-juicer-ops-mapper-remove-header-mapper-module"></span><h2>data_juicer.ops.mapper.remove_header_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_header_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_header_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveHeaderMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove headers at the beginning of documents in Latex
+samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>drop_no_head</strong> – whether to drop sample texts without
+headers.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_long_words_mapper">
+<span id="data-juicer-ops-mapper-remove-long-words-mapper-module"></span><h2>data_juicer.ops.mapper.remove_long_words_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_long_words_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_long_words_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveLongWordsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove long words within a specific range.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_len</strong> – The min mapper word length in this op, words
+will be filtered if their length is below this parameter.</p></li>
+<li><p><strong>max_len</strong> – The max mapper word length in this op, words
+will be filtered if their length exceeds this parameter.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">
+<span class="sig-name descname"><span class="pre">should_keep_long_word</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.should_keep_long_word"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">
+<span id="data-juicer-ops-mapper-remove-non-chinese-character-mapper-module"></span><h2>data_juicer.ops.mapper.remove_non_chinese_character_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_non_chinese_character_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveNonChineseCharacterlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove non chinese Character in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_alphabet</strong> – whether to keep alphabet</p></li>
+<li><p><strong>keep_number</strong> – whether to keep number</p></li>
+<li><p><strong>keep_punc</strong> – whether to keep punctuation</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">
+<span id="data-juicer-ops-mapper-remove-repeat-sentences-mapper-module"></span><h2>data_juicer.ops.mapper.remove_repeat_sentences_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_repeat_sentences_mapper.</span></span><span class="sig-name descname"><span class="pre">split_sentence</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#split_sentence"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_repeat_sentences_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveRepeatSentencesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove repeat sentences in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lowercase</strong> – Whether to convert sample text to lower case</p></li>
+<li><p><strong>ignore_special_character</strong> – Whether to ignore special
+characters when judging repeated sentences. Special characters
+are all characters except Chinese characters, letters and
+numbers.</p></li>
+<li><p><strong>min_repeat_sentence_length</strong> – Sentences shorter than this
+length will not be deduplicated. If ignore_special_character is
+set to True, then special characters are not included in this
+length.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_specific_chars_mapper">
+<span id="data-juicer-ops-mapper-remove-specific-chars-mapper-module"></span><h2>data_juicer.ops.mapper.remove_specific_chars_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_specific_chars_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_specific_chars_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveSpecificCharsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to clean specific chars in text samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>chars_to_remove</strong> – a list or a string including all
+characters that need to be removed from text.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_table_text_mapper">
+<span id="data-juicer-ops-mapper-remove-table-text-mapper-module"></span><h2>data_juicer.ops.mapper.remove_table_text_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_table_text_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_table_text_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveTableTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove table texts from text samples.</p>
+<p>Regular expression is used to remove tables in the range of column
+number of tables.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_col</strong> – The min number of columns of table to remove.</p></li>
+<li><p><strong>max_col</strong> – The max number of columns of table to remove.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">
+<span id="data-juicer-ops-mapper-remove-words-with-incorrect-substrings-mapper-module"></span><h2>data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to remove words with incorrect substrings.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – sample in which language</p></li>
+<li><p><strong>tokenization</strong> – whether to use model to tokenize documents</p></li>
+<li><p><strong>substrings</strong> – The incorrect substrings in words.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">
+<span class="sig-name descname"><span class="pre">should_keep_word_with_incorrect_substrings</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">word</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.replace_content_mapper">
+<span id="data-juicer-ops-mapper-replace-content-mapper-module"></span><h2>data_juicer.ops.mapper.replace_content_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.replace_content_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.replace_content_mapper.</span></span><span class="sig-name descname"><span class="pre">ReplaceContentMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to replace all content in the text that matches
+a specific regular expression pattern with a designated
+replacement string.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pattern</strong> – regular expression pattern(s) to search for within text</p></li>
+<li><p><strong>repl</strong> – replacement string(s), default is empty string</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.sentence_split_mapper">
+<span id="data-juicer-ops-mapper-sentence-split-mapper-module"></span><h2>data_juicer.ops.mapper.sentence_split_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.sentence_split_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.sentence_split_mapper.</span></span><span class="sig-name descname"><span class="pre">SentenceSplitMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split text samples to sentences.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – split sentence of text in which language.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.text_chunk_mapper">
+<span id="data-juicer-ops-mapper-text-chunk-mapper-module"></span><h2>data_juicer.ops.mapper.text_chunk_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.text_chunk_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.text_chunk_mapper.</span></span><span class="sig-name descname"><span class="pre">TextChunkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Split input text to chunks.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>max_len</strong> – Split text into multi texts with this max len if not
+None.</p></li>
+<li><p><strong>split_pattern</strong> – Make sure split in this pattern if it is not None
+and force cut if the length exceeds max_len.</p></li>
+<li><p><strong>overlap_len</strong> – Overlap length of the split texts if not split in
+the split pattern.</p></li>
+<li><p><strong>tokenizer</strong> – The tokenizer name of Hugging Face tokenizers.
+The text length will be calculate as the token num if it is offerd.
+Otherwise, the text length equals to string length. Support
+tiktoken tokenizer (such as gpt-4o), dashscope tokenizer (such as
+qwen2.5-72b-instruct) and huggingface tokenizer.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+<dt class="field-even">Trust_remote_code<span class="colon">:</span></dt>
+<dd class="field-even"><p>for loading huggingface model</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk">
+<span class="sig-name descname"><span class="pre">recursively_chunk</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.recursively_chunk"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks">
+<span class="sig-name descname"><span class="pre">get_text_chunks</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.get_text_chunks"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-audio-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_audio_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_audio_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to caption a video according to its audio streams based on
+Qwen-Audio model.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only captioned sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-frames-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_frames_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_frames_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+an image-to-text model and sampled video frames. Captions from different
+frames will be concatenated to a single string.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_img2seq</strong> – model name on huggingface to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each video</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of image-to-text
+model for all samples globally. It’s None in default, which means
+no prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame video horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame video vertically (top to bottom).</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-summarizer-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromSummarizerMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video captions by summarizing several kinds of generated
+texts (captions from video/audio/frames, tags from audio/frames, …)</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_summarizer</strong> – the summarizer model used to summarize texts
+generated by other methods.</p></li>
+<li><p><strong>consider_video_caption_from_video</strong> – whether to consider the video
+caption generated from video directly in the summarization process.
+Default: True.</p></li>
+<li><p><strong>consider_video_caption_from_audio</strong> – whether to consider the video
+caption generated from audio streams in the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>consider_video_caption_from_frames</strong> – whether to consider the
+video caption generated from sampled frames from the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>consider_video_tags_from_audio</strong> – whether to consider the video
+tags generated from audio streams in the video in the summarization
+process. Default: True.</p></li>
+<li><p><strong>consider_video_tags_from_frames</strong> – whether to consider the video
+tags generated from sampled frames from the video in the
+summarization process. Default: True.</p></li>
+<li><p><strong>vid_cap_from_vid_args</strong> – the arg dict for video captioning from
+video directly with keys are the arg names and values are the arg
+values. Default: None.</p></li>
+<li><p><strong>vid_cap_from_frm_args</strong> – the arg dict for video captioning from
+sampled frames from the video with keys are the arg names and
+values are the arg values. Default: None.</p></li>
+<li><p><strong>vid_tag_from_aud_args</strong> – the arg dict for video tagging from audio
+streams in the video with keys are the arg names and values are the
+arg values. Default: None.</p></li>
+<li><p><strong>vid_tag_from_frm_args</strong> – the arg dict for video tagging from
+sampled frames from the video with keys are the arg names and
+values are the arg values. Default: None.</p></li>
+<li><p><strong>keep_tag_num</strong> – max number N of tags from sampled frames to keep.
+Too many tags might bring negative influence to summarized text, so
+we consider to only keep the N most frequent tags. Default: 5.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only summarized captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_captioning_from_video_mapper">
+<span id="data-juicer-ops-mapper-video-captioning-from-video-mapper-module"></span><h2>data_juicer.ops.mapper.video_captioning_from_video_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_captioning_from_video_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_captioning_from_video_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromVideoMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate samples whose captions are generated based on
+a video-to-text model and sampled video frame.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_video_blip</strong> – video-blip model name on huggingface
+to generate caption</p></li>
+<li><p><strong>caption_num</strong> – how many candidate captions to generate
+for each video</p></li>
+<li><p><strong>keep_candidate_mode</strong> – <p>retain strategy for the generated
+$caption_num$ candidates.</p>
+<p>’random_any’: Retain the random one from generated captions</p>
+<dl class="simple">
+<dt>’similar_one_simhash’: Retain the generated one that is most</dt><dd><p>similar to the original caption</p>
+</dd>
+</dl>
+<p>’all’: Retain all generated captions by concatenation</p>
+</p></li>
+</ul>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose input and output type are
+both list. Suppose there are $N$ list of input samples, whose batch
+size is $b$, and denote caption_num as $M$.
+The number of total samples after generation is $2Nb$ when
+keep_original_sample is True and $Nb$ when keep_original_sample is
+False. For ‘random_any’ and ‘similar_one_simhash’ mode,
+it’s $(1+M)Nb$ for ‘all’ mode when keep_original_sample is True
+and $MNb$ when keep_original_sample is False.</p>
+</div>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only generated captions in the
+final datasets and the original captions will be removed. It’s True
+in default.</p></li>
+<li><p><strong>prompt</strong> – a string prompt to guide the generation of video-blip
+model for all samples globally. It’s None in default, which means
+no prompt provided.</p></li>
+<li><p><strong>prompt_key</strong> – the key name of fields in samples to store prompts
+for each sample. It’s used for set different prompts for different
+samples. If it’s none, use prompt in parameter “prompt”. It’s None
+in default.</p></li>
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>horizontal_flip</strong> – flip frame video horizontally (left to right).</p></li>
+<li><p><strong>vertical_flip</strong> – flip frame video vertically (top to bottom).</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>samples</strong></p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p></p>
+</dd>
+</dl>
+<div class="admonition note">
+<p class="admonition-title">Note</p>
+<p>This is a batched_OP, whose the input and output type are
+both list. Suppose there are $N$ input sample list with batch
+size as $b$, and denote caption_num as $M$.
+the number of total samples after generation is $2Nb$
+for ‘random_any’ and ‘similar_one’ mode,
+and $(1+M)Nb$ for ‘all’ mode.</p>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_extract_frames_mapper">
+<span id="data-juicer-ops-mapper-video-extract-frames-mapper-module"></span><h2>data_juicer.ops.mapper.video_extract_frames_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_extract_frames_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_extract_frames_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoExtractFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'__dj__video_frames__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to extract frames from video files according to specified methods.
+Extracted Frames Data Format:</p>
+<blockquote>
+<div><p>The data format for the extracted frames is a dictionary mapping
+video key to extracted frames directory where the extracted
+frames are saved. The dictionary follows the structure:
+{</p>
+<blockquote>
+<div><p>“video_key_1”: “/${frame_dir}/video_key_1_filename/”,
+“video_key_2”: “/${frame_dir}/video_key_2_filename/”,
+…</p>
+</div></blockquote>
+<p>}</p>
+</div></blockquote>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'__dj__video_frames__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.
+:param frame_sampling_method: sampling method of extracting frame</p>
+<blockquote>
+<div><p>videos from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number
+of which depends on the duration of the video) and the latter
+one extract specified number of frames uniformly from the video.
+If “duration” &gt; 0, frame_sampling_method acts on every segment.
+Default: “all_keyframes”.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.
+If “duration” &gt; 0, frame_num is the number of frames per segment.</p></li>
+<li><p><strong>duration</strong> – The duration of each segment in seconds.
+If 0, frames are extracted from the entire video.
+If duration &gt; 0, the video is segmented into multiple segments
+based on duration, and frames are extracted from each segment.</p></li>
+<li><p><strong>frame_dir</strong> – Output directory to save extracted frames.
+If None, a default directory based on the video file path is used.</p></li>
+<li><p><strong>frame_key</strong> – The name of field to save generated frames info.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_face_blur_mapper">
+<span id="data-juicer-ops-mapper-video-face-blur-mapper-module"></span><h2>data_juicer.ops.mapper.video_face_blur_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_face_blur_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_face_blur_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to blur faces detected in videos.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>cv_classifier</strong> – OpenCV classifier path for face detection.
+By default, we will use ‘haarcascade_frontalface_alt.xml’.</p></li>
+<li><p><strong>blur_type</strong> – Type of blur kernel, including
+[‘mean’, ‘box’, ‘gaussian’].</p></li>
+<li><p><strong>radius</strong> – Radius of blur kernel.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">
+<span id="data-juicer-ops-mapper-video-ffmpeg-wrapped-mapper-module"></span><h2>data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Simple wrapper for FFmpeg video filters.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filter_name</strong> – ffmpeg video filter name.</p></li>
+<li><p><strong>filter_kwargs</strong> – keyword-arguments passed to ffmpeg filter.</p></li>
+<li><p><strong>global_args</strong> – list-arguments passed to ffmpeg command-line.</p></li>
+<li><p><strong>capture_stderr</strong> – whether to capture stderr.</p></li>
+<li><p><strong>overwrite_output</strong> – whether to overwrite output file.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_remove_watermark_mapper">
+<span id="data-juicer-ops-mapper-video-remove-watermark-mapper-module"></span><h2>data_juicer.ops.mapper.video_remove_watermark_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_remove_watermark_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_remove_watermark_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoRemoveWatermarkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Remove the watermarks in videos given regions.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>roi_strings</strong> – a given list of regions the watermarks locate.
+The format of each can be “x1, y1, x2, y2”, “(x1, y1, x2, y2)”,
+or “[x1, y1, x2, y2]”.</p></li>
+<li><p><strong>roi_type</strong> – the roi string type. When the type is ‘pixel’, (x1,
+y1), (x2, y2) are the locations of pixels in the top left corner
+and the bottom right corner respectively. If the roi_type is
+‘ratio’, the coordinates are normalized by wights and heights.</p></li>
+<li><p><strong>roi_key</strong> – the key name of fields in samples to store roi_strings
+for each sample. It’s used for set different rois for different
+samples. If it’s none, use rois in parameter “roi_strings”.
+It’s None in default.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video to detect the pixels of watermark.</p></li>
+<li><p><strong>min_frame_threshold</strong> – a coodination is considered as the
+location of a watermark pixel when it is that in no less
+min_frame_threshold frames.</p></li>
+<li><p><strong>detection_method</strong> – the method to detect the pixels of watermark.
+If it is ‘pixel_value’, we consider the distribution of pixel
+value in each frame. If it is ‘pixel_diversity’, we will consider
+the pixel diversity in different frames. The min_frame_threshold
+is useless and frame_num must be greater than 1 in
+‘pixel_diversity’ mode.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">
+<span id="data-juicer-ops-mapper-video-resize-aspect-ratio-mapper-module"></span><h2>data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.</span></span><span class="sig-name descname"><span class="pre">rescale</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">width</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">height</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ori_ratio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#rescale"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeAspectRatioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to resize videos by aspect ratio.
+AspectRatio = W / H.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY">
+<span class="sig-name descname"><span class="pre">STRATEGY</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">['decrease',</span> <span class="pre">'increase']</span></em><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_ratio</strong> – The minimum aspect ratio to enforce videos with
+an aspect ratio below <cite>min_ratio</cite> will be resized to match
+this minimum ratio. The ratio should be provided as a string
+in the format “9:21” or “9/21”.</p></li>
+<li><p><strong>max_ratio</strong> – The maximum aspect ratio to enforce videos with
+an aspect ratio above <cite>max_ratio</cite> will be resized to match
+this maximum ratio. The ratio should be provided as a string
+in the format “21:9” or “21/9”.</p></li>
+<li><p><strong>strategy</strong> – The resizing strategy to apply when adjusting the
+video dimensions. It can be either ‘decrease’ to reduce the
+dimension or ‘increase’ to enlarge it. Accepted values are
+[‘decrease’, ‘increase’].</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_resize_resolution_mapper">
+<span id="data-juicer-ops-mapper-video-resize-resolution-mapper-module"></span><h2>data_juicer.ops.mapper.video_resize_resolution_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_resize_resolution_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_resize_resolution_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeResolutionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to resize videos resolution. We leave the super resolution
+with deep learning for future works.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>min_width</strong> – Videos with width less than ‘min_width’ will be
+mapped to videos with equal or bigger width.</p></li>
+<li><p><strong>max_width</strong> – Videos with width more than ‘max_width’ will be
+mapped to videos with equal of smaller width.</p></li>
+<li><p><strong>min_height</strong> – Videos with height less than ‘min_height’ will be
+mapped to videos with equal or bigger height.</p></li>
+<li><p><strong>max_height</strong> – Videos with height more than ‘max_height’ will be
+mapped to videos with equal or smaller height.</p></li>
+<li><p><strong>force_original_aspect_ratio</strong> – Enable decreasing or             increasing output video width or height if necessary             to keep the original aspect ratio, including [‘disable’,             ‘decrease’, ‘increase’].</p></li>
+<li><p><strong>force_divisible_by</strong> – Ensures that both the output dimensions,             width and height, are divisible by the given integer when used             together with force_original_aspect_ratio, must be a positive             even number.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_split_by_duration_mapper">
+<span id="data-juicer-ops-mapper-video-split-by-duration-mapper-module"></span><h2>data_juicer.ops.mapper.video_split_by_duration_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_split_by_duration_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_duration_mapper.</span></span><span class="sig-name descname"><span class="pre">create_replacer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">replacements</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#create_replacer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_duration_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByDurationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split video by duration.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>split_duration</strong> – duration of each video split in seconds.</p></li>
+<li><p><strong>min_last_split_duration</strong> – The minimum allowable duration in
+seconds for the last video split. If the duration of the last
+split is less than this value, it will be discarded.</p></li>
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only cut sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration">
+<span class="sig-name descname"><span class="pre">split_videos_by_duration</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">video_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">container</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.split_videos_by_duration"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">
+<span id="data-juicer-ops-mapper-video-split-by-key-frame-mapper-module"></span><h2>data_juicer.ops.mapper.video_split_by_key_frame_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_key_frame_mapper.</span></span><span class="sig-name descname"><span class="pre">create_replacer</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">replacements</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#create_replacer"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_key_frame_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByKeyFrameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to split video by key frame.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>keep_original_sample</strong> – whether to keep the original sample. If
+it’s set to False, there will be only split sample in the
+final datasets and the original sample will be removed. It’s True
+in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">
+<span class="sig-name descname"><span class="pre">get_split_key_frame</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">video_key</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">container</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.get_split_key_frame"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_split_by_scene_mapper">
+<span id="data-juicer-ops-mapper-video-split-by-scene-mapper-module"></span><h2>data_juicer.ops.mapper.video_split_by_scene_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_split_by_scene_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_scene_mapper.</span></span><span class="sig-name descname"><span class="pre">replace_func</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">match</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">scene_counts_iter</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#replace_func"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_split_by_scene_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitBySceneMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to cut videos into scene clips.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors">
+<span class="sig-name descname"><span class="pre">avaliable_detectors</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'AdaptiveDetector':</span> <span class="pre">['window_width',</span> <span class="pre">'min_content_val',</span> <span class="pre">'weights',</span> <span class="pre">'luma_only',</span> <span class="pre">'kernel_size',</span> <span class="pre">'video_manager',</span> <span class="pre">'min_delta_hsv'],</span> <span class="pre">'ContentDetector':</span> <span class="pre">['weights',</span> <span class="pre">'luma_only',</span> <span class="pre">'kernel_size'],</span> <span class="pre">'ThresholdDetector':</span> <span class="pre">['fade_bias',</span> <span class="pre">'add_final_scene',</span> <span class="pre">'method',</span> <span class="pre">'block_size']}</span></em><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>detector</strong> – Algorithm from <cite>scenedetect.detectors</cite>. Should be one
+of [‘ContentDetector’, ‘ThresholdDetector’, ‘AdaptiveDetector`].</p></li>
+<li><p><strong>threshold</strong> – Threshold passed to the detector.</p></li>
+<li><p><strong>min_scene_len</strong> – Minimum length of any scene.</p></li>
+<li><p><strong>show_progress</strong> – Whether to show progress from scenedetect.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">
+<span id="data-juicer-ops-mapper-video-tagging-from-audio-mapper-module"></span><h2>data_juicer.ops.mapper.video_tagging_from_audio_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_tagging_from_audio_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_audio_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video tags from audio streams extracted by video
+using the Audio Spectrogram Transformer.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_audio_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>hf_ast</strong> – path to the HF model to tag from audios.</p></li>
+<li><p><strong>trust_remote_code</strong> – whether to trust the remote code of HF models</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“__dj__video_audio_tags__” in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">
+<span id="data-juicer-ops-mapper-video-tagging-from-frames-mapper-module"></span><h2>data_juicer.ops.mapper.video_tagging_from_frames_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.video_tagging_from_frames_mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_frame_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to generate video tags from frames extract by video.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_frame_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>frame_sampling_method</strong> – sampling method of extracting frame
+images from the videos. Should be one of
+[“all_keyframes”, “uniform”].
+The former one extracts all key frames (the number of which depends
+on the duration of the video) and the latter one extract specified
+number of frames uniformly from the video.
+Default: “all_keyframes”.</p></li>
+<li><p><strong>frame_num</strong> – the number of frames to be extracted uniformly from
+the video. Only works when frame_sampling_method is “uniform”. If
+it’s 1, only the middle frame will be extracted. If it’s 2, only
+the first and the last frames will be extracted. If it’s larger
+than 2, in addition to the first and the last frames, other frames
+will be extracted uniformly within the video duration.</p></li>
+<li><p><strong>tag_field_name</strong> – the field name to store the tags. It’s
+“__dj__video_frame_tags__” in default.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single">
+<span class="sig-name descname"><span class="pre">process_single</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper.process_single"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single" title="Link to this definition">¶</a></dt>
+<dd><p>For sample level, sample –&gt; sample</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>sample</strong> – sample to process</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>processed sample</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper.whitespace_normalization_mapper">
+<span id="data-juicer-ops-mapper-whitespace-normalization-mapper-module"></span><h2>data_juicer.ops.mapper.whitespace_normalization_mapper module<a class="headerlink" href="#module-data_juicer.ops.mapper.whitespace_normalization_mapper" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.whitespace_normalization_mapper.</span></span><span class="sig-name descname"><span class="pre">WhitespaceNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<p>Mapper to normalize different kinds of whitespaces to whitespace ‘ ‘ (0x20)
+in text samples.</p>
+<p>Different kinds of whitespaces can be found here:
+<a class="reference external" href="https://en.wikipedia.org/wiki/Whitespace_character">https://en.wikipedia.org/wiki/Whitespace_character</a></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched">
+<span class="sig-name descname"><span class="pre">process_batched</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">samples</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper.process_batched"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.mapper">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.mapper" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.AudioFFmpegWrappedMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">AudioFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/audio_ffmpeg_wrapped_mapper.html#AudioFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.AudioFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Simple wrapper for FFmpeg audio filters.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__">
@@ -189,7 +3556,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_qa_mapper.html#CalibrateQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQAMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to calibrate question-answer pairs based on reference text.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">
@@ -270,7 +3637,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQueryMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_query_mapper.html#CalibrateQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateQueryMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
 <p>Mapper to calibrate query in question-answer pairs based on reference text.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">
@@ -287,7 +3654,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateResponseMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CalibrateResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reference_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/calibrate_response_mapper.html#CalibrateResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CalibrateResponseMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper" title="data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></p>
 <p>Mapper to calibrate response in question-answer pairs based on reference text.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">
@@ -304,7 +3671,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ChineseConvertMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ChineseConvertMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'s2t'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/chinese_convert_mapper.html#ChineseConvertMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ChineseConvertMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to convert Chinese between Traditional Chinese, Simplified Chinese
 and Japanese Kanji.</p>
 <dl class="py method">
@@ -355,7 +3722,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanCopyrightMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanCopyrightMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_copyright_mapper.html#CleanCopyrightMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanCopyrightMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean copyright comments at the beginning of the text
 samples.</p>
 <dl class="py method">
@@ -382,7 +3749,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanEmailMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanEmailMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_email_mapper.html#CleanEmailMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanEmailMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean email in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanEmailMapper.__init__">
@@ -410,7 +3777,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanHtmlMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanHtmlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_html_mapper.html#CleanHtmlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanHtmlMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean html code in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanHtmlMapper.__init__">
@@ -436,7 +3803,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanIpMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanIpMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_ip_mapper.html#CleanIpMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanIpMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean ipv4 and ipv6 address in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanIpMapper.__init__">
@@ -464,7 +3831,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanLinksMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">CleanLinksMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/clean_links_mapper.html#CleanLinksMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.CleanLinksMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean links like http/https/ftp in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.CleanLinksMapper.__init__">
@@ -492,7 +3859,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExpandMacroMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExpandMacroMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/expand_macro_mapper.html#ExpandMacroMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExpandMacroMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to expand macro definitions in the document body of Latex
 samples.</p>
 <dl class="py method">
@@ -519,7 +3886,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityAttributeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_entities</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">query_attributes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">[]</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__main_entities__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attributes__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attribute_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attribute_descriptions__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__attribute_support_texts__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">attr_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">demo_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_attribute_mapper.html#ExtractEntityAttributeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityAttributeMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Extract attributes for given entities from the text</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
@@ -611,7 +3978,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEntityRelationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_types</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__entity__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__relation__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tuple_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">record_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_gleaning</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">continue_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">if_loop_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">entity_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relation_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_entity_relation_mapper.html#ExtractEntityRelationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEntityRelationMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Extract entities and relations in the text for knowledge graph.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">
@@ -735,7 +4102,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractEventMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">event_desc_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__event_description__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">relevant_char_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__relevant_characters__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_event_mapper.html#ExtractEventMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractEventMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Extract events and relevant characters in the text</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">
@@ -800,7 +4167,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractKeywordMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyword_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__keyword__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">completion_delimiter</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_keyword_mapper.html#ExtractKeywordMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractKeywordMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Generate keywords for the text</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">
@@ -871,7 +4238,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractNicknameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">nickname_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__nickname__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_nickname_mapper.html#ExtractNicknameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractNicknameMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Extract nickname relationship in the text.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">
@@ -942,7 +4309,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ExtractSupportTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">summary_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__event_description__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">support_text_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__support_text__'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/extract_support_text_mapper.html#ExtractSupportTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ExtractSupportTextMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Extract support sub text for a summary.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">
@@ -1006,7 +4373,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.FixUnicodeMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">FixUnicodeMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">normalization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/fix_unicode_mapper.html#FixUnicodeMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.FixUnicodeMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to fix unicode errors in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.FixUnicodeMapper.__init__">
@@ -1035,17 +4402,17 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromExamplesMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromExamplesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">similarity_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">example_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_examples_mapper.html#GenerateQAFromExamplesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromExamplesMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate question and answer pairs from examples.
 You should configure an empty dataset in your yaml config file:
-<a href="#id1"><span class="problematic" id="id2">``</span></a>`
+<a href="#id5"><span class="problematic" id="id6">``</span></a>`
 generated_dataset_config:</p>
 <blockquote>
 <div><p>type: ‘EmptyFormatter’  # use <cite>RayEmptyFormatter</cite> when enable ray
 length: ${The number of generated samples}
 feature_keys: ${text key}</p>
 </div></blockquote>
-<p><a href="#id3"><span class="problematic" id="id4">``</span></a>`
+<p><a href="#id7"><span class="problematic" id="id8">``</span></a>`
 The number of samples generated is determined by
 the length of the empty dataset.</p>
 <dl class="py attribute">
@@ -1140,7 +4507,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.GenerateQAFromTextMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">GenerateQAFromTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'alibaba-pai/pai-qwen1_5-7b-doc2qa'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/generate_qa_from_text_mapper.html#GenerateQAFromTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.GenerateQAFromTextMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate question and answer pairs from text.
 Recommended model list: [</p>
 <blockquote>
@@ -1205,7 +4572,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageBlurMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">p</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_blur_mapper.html#ImageBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageBlurMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to blur images.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageBlurMapper.__init__">
@@ -1244,7 +4611,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningFromGPT4VMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'description'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">500</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">temperature</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">user_prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">any_or_all</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'any'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_from_gpt4v_mapper.html#ImageCaptioningFromGPT4VMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate samples whose texts are generated based on
 gpt-4-visison and the image.</p>
 <dl class="py method">
@@ -1297,7 +4664,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageCaptioningMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageCaptioningMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_captioning_mapper.html#ImageCaptioningMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageCaptioningMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate samples whose captions are generated based on
 another model and the figure.</p>
 <dl class="py method">
@@ -1381,7 +4748,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageDiffusionMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageDiffusionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_diffusion</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'CompVis/stable-diffusion-v1-4'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">torch_dtype</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'fp32'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">revision</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'main'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strength</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0.8</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7.5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_diffusion_mapper.html#ImageDiffusionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageDiffusionMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Generate image by diffusion model</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageDiffusionMapper.__init__">
@@ -1472,7 +4839,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageFaceBlurMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_face_blur_mapper.html#ImageFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageFaceBlurMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to blur faces detected in images.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageFaceBlurMapper.__init__">
@@ -1512,7 +4879,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageTaggingMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ImageTaggingMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__image_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/image_tagging_mapper.html#ImageTaggingMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ImageTaggingMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate image tags.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ImageTaggingMapper.__init__">
@@ -1551,7 +4918,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpaugEnMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">NlpaugEnMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">spelling_error_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_random_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keyboard_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ocr_error_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">insert_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpaug_en_mapper.html#NlpaugEnMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpaugEnMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to simply augment samples in English based on nlpaug library.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpaugEnMapper.__init__">
@@ -1620,7 +4987,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpcdaZhMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">NlpcdaZhMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sequential</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">aug_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_similar_word</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_homophone_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delete_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">swap_random_char</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">replace_equivalent_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/nlpcda_zh_mapper.html#NlpcdaZhMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.NlpcdaZhMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to simply augment samples in Chinese based on nlpcda library.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.NlpcdaZhMapper.__init__">
@@ -1679,7 +5046,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQAMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_qa_mapper.html#OptimizeQAMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQAMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to optimize question-answer pairs.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">
@@ -1758,7 +5125,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQueryMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeQueryMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_query_mapper.html#OptimizeQueryMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeQueryMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
 <p>Mapper to optimize query in question-answer pairs.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">
@@ -1775,7 +5142,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeResponseMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">OptimizeResponseMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Qwen/Qwen2.5-7B-Instruct'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">qa_pair_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">enable_vllm</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/optimize_response_mapper.html#OptimizeResponseMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.OptimizeResponseMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper" title="data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></p>
 <p>Mapper to optimize response in question-answer pairs.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">
@@ -1792,7 +5159,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PairPreferenceMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rejected_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'rejected_response'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reason_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'reason'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/pair_preference_mapper.html#PairPreferenceMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PairPreferenceMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to construct paired preference samples.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">
@@ -1869,7 +5236,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PunctuationNormalizationMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PunctuationNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/punctuation_normalization_mapper.html#PunctuationNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PunctuationNormalizationMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to normalize unicode punctuations to English punctuations in text
 samples.</p>
 <dl class="py method">
@@ -1896,7 +5263,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonFileMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PythonFileMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">file_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">function_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'process_single'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_file_mapper.html#PythonFileMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonFileMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper for executing Python function defined in a file.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonFileMapper.__init__">
@@ -1934,7 +5301,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonLambdaMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">PythonLambdaMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lambda_str</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batched</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/python_lambda_mapper.html#PythonLambdaMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.PythonLambdaMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper for executing Python lambda function on data samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.PythonLambdaMapper.__init__">
@@ -1977,7 +5344,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RelationIdentityMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">api_model</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gpt-4o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">source_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_entity</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">api_endpoint</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">system_prompt_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_pattern_template</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">try_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">drop_text</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_params</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">{}</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/relation_identity_mapper.html#RelationIdentityMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RelationIdentityMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>identify relation between two entity in the text.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">
@@ -2057,7 +5424,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveBibliographyMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveBibliographyMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_bibliography_mapper.html#RemoveBibliographyMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveBibliographyMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove bibliography at the end of documents in Latex
 samples.</p>
 <dl class="py method">
@@ -2084,7 +5451,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveCommentsMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveCommentsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">doc_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'tex'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">inline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">multiline</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_comments_mapper.html#RemoveCommentsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveCommentsMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove comments in different kinds of documents.</p>
 <p>Only support ‘tex’ for now.</p>
 <dl class="py method">
@@ -2114,7 +5481,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveHeaderMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveHeaderMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">drop_no_head</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_header_mapper.html#RemoveHeaderMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveHeaderMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove headers at the beginning of documents in Latex
 samples.</p>
 <dl class="py method">
@@ -2143,7 +5510,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveLongWordsMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveLongWordsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_long_words_mapper.html#RemoveLongWordsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveLongWordsMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove long words within a specific range.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveLongWordsMapper.__init__">
@@ -2178,7 +5545,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveNonChineseCharacterlMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_alphabet</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_number</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_punc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_non_chinese_character_mapper.html#RemoveNonChineseCharacterlMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove non chinese Character in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__">
@@ -2207,7 +5574,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveRepeatSentencesMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveRepeatSentencesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lowercase</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">ignore_special_character</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_repeat_sentence_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_repeat_sentences_mapper.html#RemoveRepeatSentencesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveRepeatSentencesMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove repeat sentences in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__">
@@ -2242,7 +5609,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveSpecificCharsMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveSpecificCharsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">chars_to_remove</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'◆●■►▼▲▴∆▻▷❖♡□'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_specific_chars_mapper.html#RemoveSpecificCharsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveSpecificCharsMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to clean specific chars in text samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__">
@@ -2270,7 +5637,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveTableTextMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveTableTextMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_col</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">2</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">20</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">20</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_table_text_mapper.html#RemoveTableTextMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveTableTextMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove table texts from text samples.</p>
 <p>Regular expression is used to remove tables in the range of column
 number of tables.</p>
@@ -2300,7 +5667,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenization</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">substrings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/remove_words_with_incorrect_substrings_mapper.html#RemoveWordsWithIncorrectSubstringsMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to remove words with incorrect substrings.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">
@@ -2334,7 +5701,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.ReplaceContentMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">ReplaceContentMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">repl</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/replace_content_mapper.html#ReplaceContentMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.ReplaceContentMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to replace all content in the text that matches
 a specific regular expression pattern with a designated
 replacement string.</p>
@@ -2364,7 +5731,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.SentenceSplitMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">SentenceSplitMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'en'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/sentence_split_mapper.html#SentenceSplitMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.SentenceSplitMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to split text samples to sentences.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.SentenceSplitMapper.__init__">
@@ -2391,7 +5758,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">TextChunkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">max_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">split_pattern</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'\\n\\n'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overlap_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tokenizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/text_chunk_mapper.html#TextChunkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.TextChunkMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Split input text to chunks.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.TextChunkMapper.__init__">
@@ -2441,7 +5808,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromAudioMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_audio_mapper.html#VideoCaptioningFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to caption a video according to its audio streams based on
 Qwen-Audio model.</p>
 <dl class="py method">
@@ -2472,7 +5839,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromFramesMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_img2seq</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'Salesforce/blip2-opt-2.7b'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_frames_mapper.html#VideoCaptioningFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate samples whose captions are generated based on
 an image-to-text model and sampled video frames. Captions from different
 frames will be concatenated to a single string.</p>
@@ -2572,7 +5939,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromSummarizerMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_summarizer</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_caption_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">consider_video_tags_from_frames</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_vid_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_cap_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_aud_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vid_tag_from_frm_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_tag_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">5</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_summarizer_mapper.html#VideoCaptioningFromSummarizerMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate video captions by summarizing several kinds of generated
 texts (captions from video/audio/frames, tags from audio/frames, …)</p>
 <dl class="py method">
@@ -2635,7 +6002,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoCaptioningFromVideoMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoCaptioningFromVideoMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_video_blip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'kpyu/video-blip-opt-2.7b-ego4d'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caption_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_candidate_mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'random_any'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">prompt_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">horizontal_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">vertical_flip</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_captioning_from_video_mapper.html#VideoCaptioningFromVideoMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate samples whose captions are generated based on
 a video-to-text model and sampled video frame.</p>
 <dl class="py method">
@@ -2735,7 +6102,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoExtractFramesMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoExtractFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'__dj__video_frames__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_extract_frames_mapper.html#VideoExtractFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoExtractFramesMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to extract frames from video files according to specified methods.
 Extracted Frames Data Format:</p>
 <blockquote>
@@ -2807,7 +6174,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFFmpegWrappedMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFFmpegWrappedMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filter_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filter_kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dict</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">global_args</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">capture_stderr</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">overwrite_output</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_ffmpeg_wrapped_mapper.html#VideoFFmpegWrappedMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFFmpegWrappedMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Simple wrapper for FFmpeg video filters.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__">
@@ -2847,7 +6214,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFaceBlurMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoFaceBlurMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cv_classifier</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blur_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'gaussian'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">radius</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_face_blur_mapper.html#VideoFaceBlurMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoFaceBlurMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to blur faces detected in videos.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoFaceBlurMapper.__init__">
@@ -2887,7 +6254,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoRemoveWatermarkMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoRemoveWatermarkMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_strings</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">['0,0,0.1,0.1']</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ratio'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_frame_threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">7</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detection_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'pixel_value'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_remove_watermark_mapper.html#VideoRemoveWatermarkMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoRemoveWatermarkMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Remove the watermarks in videos given regions.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__">
@@ -2944,7 +6311,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeAspectRatioMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeAspectRatioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'9/21'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'21/9'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">strategy</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'increase'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_aspect_ratio_mapper.html#VideoResizeAspectRatioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeAspectRatioMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to resize videos by aspect ratio.
 AspectRatio = W / H.</p>
 <dl class="py attribute">
@@ -2997,7 +6364,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoResizeResolutionMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoResizeResolutionMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">min_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_width</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_height</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">9223372036854775807</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_original_aspect_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'disable'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force_divisible_by</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">2</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_resize_resolution_mapper.html#VideoResizeResolutionMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoResizeResolutionMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to resize videos resolution. We leave the super resolution
 with deep learning for future works.</p>
 <dl class="py method">
@@ -3043,7 +6410,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByDurationMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByDurationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">10</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_last_split_duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_duration_mapper.html#VideoSplitByDurationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByDurationMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to split video by duration.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__">
@@ -3082,7 +6449,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByKeyFrameMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitByKeyFrameMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">keep_original_sample</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_key_frame_mapper.html#VideoSplitByKeyFrameMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to split video by key frame.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__">
@@ -3117,7 +6484,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitBySceneMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoSplitBySceneMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">detector</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'ContentDetector'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">threshold</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">27.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">min_scene_len</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">15</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">show_progress</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_split_by_scene_mapper.html#VideoSplitBySceneMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoSplitBySceneMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to cut videos into scene clips.</p>
 <dl class="py attribute">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors">
@@ -3162,7 +6529,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromAudioMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromAudioMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_ast</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'MIT/ast-finetuned-audioset-10-10-0.4593'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">trust_remote_code</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_audio_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_audio_mapper.html#VideoTaggingFromAudioMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromAudioMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate video tags from audio streams extracted by video
 using the Audio Spectrogram Transformer.</p>
 <dl class="py method">
@@ -3202,7 +6569,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromFramesMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">VideoTaggingFromFramesMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">frame_sampling_method</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'all_keyframes'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">3</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">tag_field_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'__dj__video_frame_tags__'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/video_tagging_from_frames_mapper.html#VideoTaggingFromFramesMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.VideoTaggingFromFramesMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to generate video tags from frames extract by video.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__">
@@ -3252,7 +6619,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.mapper.WhitespaceNormalizationMapper">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.mapper.</span></span><span class="sig-name descname"><span class="pre">WhitespaceNormalizationMapper</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/mapper/whitespace_normalization_mapper.html#WhitespaceNormalizationMapper"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.mapper.WhitespaceNormalizationMapper" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper" title="data_juicer.ops.base_op.Mapper"><code class="xref py py-class docutils literal notranslate"><span class="pre">Mapper</span></code></a></p>
 <p>Mapper to normalize different kinds of whitespaces to whitespace ‘ ‘ (0x20)
 in text samples.</p>
 <p>Different kinds of whitespaces can be found here:
@@ -3278,14 +6645,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.filter.html" class="btn btn-neutral float-left" title="data_juicer.ops.filter" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-right" title="data_juicer.ops.deduplicator" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.grouper.html" class="btn btn-neutral float-left" title="data_juicer.ops.grouper package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.ops.selector.html" class="btn btn-neutral float-right" title="data_juicer.ops.selector package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.ops.selector.html b/data_juicer.ops.selector.html
index ab5d754ac..42bfa5ee2 100644
--- a/data_juicer.ops.selector.html
+++ b/data_juicer.ops.selector.html
@@ -6,19 +6,19 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.ops.selector &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.ops.selector package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.ops.common" href="data_juicer.ops.common.html" />
-    <link rel="prev" title="data_juicer.ops.deduplicator" href="data_juicer.ops.deduplicator.html" /> 
+    <link rel="next" title="data_juicer.analysis package" href="data_juicer.analysis.html" />
+    <link rel="prev" title="data_juicer.ops.mapper package" href="data_juicer.ops.mapper.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -42,22 +42,24 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul class="current">
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.selector</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.selector.RandomSelector"><code class="docutils literal notranslate"><span class="pre">RandomSelector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.selector.RangeSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="#data_juicer.ops.selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1 current"><a class="current reference internal" href="#">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="#module-data_juicer.ops.selector">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -74,7 +76,8 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.ops.selector</li>
+          <li class="breadcrumb-item"><a href="data_juicer.ops.html">data_juicer.ops package</a></li>
+      <li class="breadcrumb-item active">data_juicer.ops.selector package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.ops.selector.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -84,12 +87,234 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.ops.selector">
-<span id="data-juicer-ops-selector"></span><h1>data_juicer.ops.selector<a class="headerlink" href="#module-data_juicer.ops.selector" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-ops-selector-package">
+<h1>data_juicer.ops.selector package<a class="headerlink" href="#data-juicer-ops-selector-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.ops.selector.frequency_specified_field_selector">
+<span id="data-juicer-ops-selector-frequency-specified-field-selector-module"></span><h2>data_juicer.ops.selector.frequency_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.frequency_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.frequency_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">FrequencySpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select samples based on the sorted frequency of specified
+field.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top specified field value,
+samples will be selected if their specified field values are
+within this parameter. When both topk and top_ratio are set,
+the value corresponding to the smaller number of samples
+will be applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.random_selector">
+<span id="data-juicer-ops-selector-random-selector-module"></span><h2>data_juicer.ops.selector.random_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.random_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.random_selector.RandomSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.random_selector.</span></span><span class="sig-name descname"><span class="pre">RandomSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.random_selector.RandomSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to random select samples.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.random_selector.RandomSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.random_selector.RandomSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>select_ratio</strong> – The ratio to select. When both
+select_ratio and select_num are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>select_num</strong> – The number of samples to select. When both
+select_ratio and select_num are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.random_selector.RandomSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.random_selector.RandomSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.range_specified_field_selector">
+<span id="data-juicer-ops-selector-range-specified-field-selector-module"></span><h2>data_juicer.ops.selector.range_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.range_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.range_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">RangeSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select a range of samples based on the sorted
+specified field value from smallest to largest.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>lower_percentile</strong> – The lower bound of the percentile to
+be sample, samples will be selected if their specified field
+values are greater than this lower bound. When both
+lower_percentile and lower_rank are set, the value corresponding
+to the larger number of samples will be applied.</p></li>
+<li><p><strong>upper_percentile</strong> – The upper bound of the percentile to
+be sample, samples will be selected if their specified field
+values are less or equal to the upper bound. When both
+upper_percentile and upper_rank are set, the value corresponding
+to the smaller number of samples will be applied.</p></li>
+<li><p><strong>lower_rank</strong> – The lower bound of the rank to be sample,
+samples will be selected if their specified field values are
+greater than this lower bound. When both lower_percentile and
+lower_rank are set, the value corresponding to the larger number
+of samples will be applied.</p></li>
+<li><p><strong>upper_rank</strong> – The upper bound of the rank to be sample,
+samples will be selected if their specified field values are
+less or equal to the upper bound. When both upper_percentile and
+upper_rank are set, the value corresponding to the smaller number
+of samples will be applied.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector.topk_specified_field_selector">
+<span id="data-juicer-ops-selector-topk-specified-field-selector-module"></span><h2>data_juicer.ops.selector.topk_specified_field_selector module<a class="headerlink" href="#module-data_juicer.ops.selector.topk_specified_field_selector" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.topk_specified_field_selector.</span></span><span class="sig-name descname"><span class="pre">TopkSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<p>Selector to select top samples based on the sorted specified field
+value.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>field_key</strong> – Selector based on the specified value
+corresponding to the target key. The target key
+corresponding to multi-level field information need to be
+separated by ‘.’.</p></li>
+<li><p><strong>top_ratio</strong> – Ratio of selected top samples, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>topk</strong> – Number of selected top sample, samples will be
+selected if their specified field values are within this
+parameter. When both topk and top_ratio are set, the value
+corresponding to the smaller number of samples will be
+applied.</p></li>
+<li><p><strong>reverse</strong> – Determine the sorting rule, if reverse=True,
+then sort in descending order.</p></li>
+<li><p><strong>args</strong> – extra args</p></li>
+<li><p><strong>kwargs</strong> – extra args</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">
+<span class="sig-name descname"><span class="pre">process</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector.process"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process" title="Link to this definition">¶</a></dt>
+<dd><p>Dataset –&gt; dataset.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>dataset</strong> – input dataset</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>selected dataset.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.ops.selector">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.ops.selector" title="Link to this heading">¶</a></h2>
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.FrequencySpecifiedFieldSelector">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">FrequencySpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/frequency_specified_field_selector.html#FrequencySpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.FrequencySpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
 <p>Selector to select samples based on the sorted frequency of specified
 field.</p>
 <dl class="py method">
@@ -141,7 +366,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.RandomSelector">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">RandomSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">select_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">select_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/random_selector.html#RandomSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RandomSelector" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
 <p>Selector to random select samples.</p>
 <dl class="py method">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.RandomSelector.__init__">
@@ -182,7 +407,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.RangeSpecifiedFieldSelector">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">RangeSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_percentile</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">lower_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">upper_rank</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/range_specified_field_selector.html#RangeSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.RangeSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
 <p>Selector to select a range of samples based on the sorted
 specified field value from smallest to largest.</p>
 <dl class="py method">
@@ -242,7 +467,7 @@
 <dl class="py class">
 <dt class="sig sig-object py" id="data_juicer.ops.selector.TopkSpecifiedFieldSelector">
 <em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.ops.selector.</span></span><span class="sig-name descname"><span class="pre">TopkSpecifiedFieldSelector</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">field_key</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">''</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">top_ratio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">float</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">FieldInfo</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">annotation</span></span><span class="o"><span class="pre">=</span></span><span class="pre">NoneType</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">required</span></span><span class="o"><span class="pre">=</span></span><span class="k"><span class="pre">True</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="n"><span class="pre">metadata</span></span><span class="o"><span class="pre">=</span></span><span class="p"><span class="pre">[</span></span><span class="pre">Ge</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">ge</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Le</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">le</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">1</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">topk</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/ops/selector/topk_specified_field_selector.html#TopkSpecifiedFieldSelector"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.ops.selector.TopkSpecifiedFieldSelector" title="Link to this definition">¶</a></dt>
-<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
+<dd><p>Bases: <a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.base_op.Selector" title="data_juicer.ops.base_op.Selector"><code class="xref py py-class docutils literal notranslate"><span class="pre">Selector</span></code></a></p>
 <p>Selector to select top samples based on the sorted specified field
 value.</p>
 <dl class="py method">
@@ -291,14 +516,15 @@
 
 </dd></dl>
 
+</section>
 </section>
 
 
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.ops.deduplicator.html" class="btn btn-neutral float-left" title="data_juicer.ops.deduplicator" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
-        <a href="data_juicer.ops.common.html" class="btn btn-neutral float-right" title="data_juicer.ops.common" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.ops.mapper.html" class="btn btn-neutral float-left" title="data_juicer.ops.mapper package" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
+        <a href="data_juicer.analysis.html" class="btn btn-neutral float-right" title="data_juicer.analysis package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/data_juicer.tools.html b/data_juicer.tools.html
index f7a7df48f..5b2846d32 100644
--- a/data_juicer.tools.html
+++ b/data_juicer.tools.html
@@ -6,13 +6,13 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.tools &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.tools package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +66,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.tools</li>
+      <li class="breadcrumb-item active">data_juicer.tools package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.tools.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,8 +76,11 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.tools">
-<span id="data-juicer-tools"></span><h1>data_juicer.tools<a class="headerlink" href="#module-data_juicer.tools" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-tools-package">
+<h1>data_juicer.tools package<a class="headerlink" href="#data-juicer-tools-package" title="Link to this heading">¶</a></h1>
+<section id="module-data_juicer.tools">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.tools" title="Link to this heading">¶</a></h2>
+</section>
 </section>
 
 
diff --git a/data_juicer.utils.html b/data_juicer.utils.html
index eab44f800..5622b435a 100644
--- a/data_juicer.utils.html
+++ b/data_juicer.utils.html
@@ -6,13 +6,13 @@
   <meta charset="utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />
 
   <meta name="viewport" content="width=device-width, initial-scale=1.0" />
-  <title>data_juicer.utils &mdash; data_juicer 1.0.2 documentation</title>
+  <title>data_juicer.utils package &mdash; data_juicer 1.0.2 documentation</title>
       <link rel="stylesheet" type="text/css" href="_static/pygments.css?v=80d5e7a1" />
       <link rel="stylesheet" type="text/css" href="_static/css/theme.css?v=e59714d7" />
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -66,7 +66,7 @@
           <div role="navigation" aria-label="Page navigation">
   <ul class="wy-breadcrumbs">
       <li><a href="index.html" class="icon icon-home" aria-label="Home"></a></li>
-      <li class="breadcrumb-item active">data_juicer.utils</li>
+      <li class="breadcrumb-item active">data_juicer.utils package</li>
       <li class="wy-breadcrumbs-aside">
             <a href="_sources/data_juicer.utils.rst.txt" rel="nofollow"> View page source</a>
       </li>
@@ -76,8 +76,2309 @@
           <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
            <div itemprop="articleBody">
              
-  <section id="module-data_juicer.utils">
-<span id="data-juicer-utils"></span><h1>data_juicer.utils<a class="headerlink" href="#module-data_juicer.utils" title="Link to this heading">¶</a></h1>
+  <section id="data-juicer-utils-package">
+<h1>data_juicer.utils package<a class="headerlink" href="#data-juicer-utils-package" title="Link to this heading">¶</a></h1>
+<section id="submodules">
+<h2>Submodules<a class="headerlink" href="#submodules" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.utils.asset_utils">
+<span id="data-juicer-utils-asset-utils-module"></span><h2>data_juicer.utils.asset_utils module<a class="headerlink" href="#module-data_juicer.utils.asset_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.asset_utils.load_words_asset">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.asset_utils.</span></span><span class="sig-name descname"><span class="pre">load_words_asset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">words_dir</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">words_type</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/asset_utils.html#load_words_asset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.asset_utils.load_words_asset" title="Link to this definition">¶</a></dt>
+<dd><p>Load words from a asset file named <cite>words_type</cite>, if not find a valid asset
+file, then download it from ASSET_LINKS cached by data_juicer team.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>words_dir</strong> – directory that stores asset file(s)</p></li>
+<li><p><strong>words_type</strong> – name of target words assets</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a dict that stores words assets, whose keys are language
+names, and the values are lists of words</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.auto_install_mapping">
+<span id="data-juicer-utils-auto-install-mapping-module"></span><h2>data_juicer.utils.auto_install_mapping module<a class="headerlink" href="#module-data_juicer.utils.auto_install_mapping" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.utils.auto_install_utils">
+<span id="data-juicer-utils-auto-install-utils-module"></span><h2>data_juicer.utils.auto_install_utils module<a class="headerlink" href="#module-data_juicer.utils.auto_install_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.auto_install_utils.</span></span><span class="sig-name descname"><span class="pre">AutoInstaller</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">require_f_paths</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to install the required
+package automatically.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">require_f_paths</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">[]</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>require_f_paths</strong> – paths to the file for version limitation</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller.check">
+<span class="sig-name descname"><span class="pre">check</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">check_pkgs</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">param</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller.check"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller.check" title="Link to this definition">¶</a></dt>
+<dd><p>install if the package is not installed.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>check_pkgs</strong> – packages to be check, install them if they are
+not installed</p></li>
+<li><p><strong>param</strong> – install param for pip if necessary</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.auto_install_utils.AutoInstaller.install">
+<span class="sig-name descname"><span class="pre">install</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/auto_install_utils.html#AutoInstaller.install"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.auto_install_utils.AutoInstaller.install" title="Link to this definition">¶</a></dt>
+<dd><p>install package for given module.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>module</strong> – module to be installed</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.availability_utils">
+<span id="data-juicer-utils-availability-utils-module"></span><h2>data_juicer.utils.availability_utils module<a class="headerlink" href="#module-data_juicer.utils.availability_utils" title="Link to this heading">¶</a></h2>
+</section>
+<section id="module-data_juicer.utils.cache_utils">
+<span id="data-juicer-utils-cache-utils-module"></span><h2>data_juicer.utils.cache_utils module<a class="headerlink" href="#module-data_juicer.utils.cache_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.cache_utils.DatasetCacheControl">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.cache_utils.</span></span><span class="sig-name descname"><span class="pre">DatasetCacheControl</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">on</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/cache_utils.html#DatasetCacheControl"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.cache_utils.DatasetCacheControl" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Define a range that change the cache state temporarily.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.cache_utils.DatasetCacheControl.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">on</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/cache_utils.html#DatasetCacheControl.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.cache_utils.DatasetCacheControl.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.cache_utils.dataset_cache_control">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.cache_utils.</span></span><span class="sig-name descname"><span class="pre">dataset_cache_control</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">on</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/cache_utils.html#dataset_cache_control"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.cache_utils.dataset_cache_control" title="Link to this definition">¶</a></dt>
+<dd><p>A more easy-to-use decorator for functions that need to control the cache
+state temporarily.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.ckpt_utils">
+<span id="data-juicer-utils-ckpt-utils-module"></span><h2>data_juicer.utils.ckpt_utils module<a class="headerlink" href="#module-data_juicer.utils.ckpt_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.ckpt_utils.</span></span><span class="sig-name descname"><span class="pre">CheckpointManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ckpt_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">original_process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to save the latest version of dataset to checkpoint
+directory or load it from checkpoint directory, a bit like cache management
+Rerun the same config will reload the checkpoint and skip ops before it.</p>
+<p>If any args of operator in process list is changed, all ops will be
+rerun from the beginning.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ckpt_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">original_process_list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ckpt_dir</strong> – path to save and load checkpoint</p></li>
+<li><p><strong>original_process_list</strong> – process list in config</p></li>
+<li><p><strong>num_proc</strong> – number of process workers when saving dataset</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">
+<span class="sig-name descname"><span class="pre">get_left_process_list</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.get_left_process_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list" title="Link to this definition">¶</a></dt>
+<dd><p>Get left process list of ops for processing dataset, when checkpoint is
+available, remove some ops from process list, otherwise keep it
+unchanged.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>process list of left ops</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">
+<span class="sig-name descname"><span class="pre">check_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt" title="Link to this definition">¶</a></dt>
+<dd><p>Check if checkpoint is available.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>True when checkpoint is available, else False</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.record">
+<span class="sig-name descname"><span class="pre">record</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">op_cfg</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.record"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.record" title="Link to this definition">¶</a></dt>
+<dd><p>Save op name and args to op record, which is used to compare with
+the process list from config to decide if a checkpoint is available.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">
+<span class="sig-name descname"><span class="pre">check_ops_to_skip</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.check_ops_to_skip"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip" title="Link to this definition">¶</a></dt>
+<dd><p>Check which ops need to be skipped in the process list.</p>
+<p>If op record list from checkpoint are the same as the prefix
+part of process list, then skip these ops and start processing
+from the checkpoint. Otherwise, process the original dataset
+from scratch.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>whether to skip some ops or not</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">
+<span class="sig-name descname"><span class="pre">save_ckpt</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.save_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt" title="Link to this definition">¶</a></dt>
+<dd><p>Save dataset to checkpoint directory and dump processed ops list.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>ds</strong> – input dataset to save</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">
+<span class="sig-name descname"><span class="pre">load_ckpt</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/ckpt_utils.html#CheckpointManager.load_ckpt"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt" title="Link to this definition">¶</a></dt>
+<dd><p>Load dataset from a checkpoint file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>a dataset stored in checkpoint file.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.common_utils">
+<span id="data-juicer-utils-common-utils-module"></span><h2>data_juicer.utils.common_utils module<a class="headerlink" href="#module-data_juicer.utils.common_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.stats_to_number">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">stats_to_number</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reverse</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#stats_to_number"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.stats_to_number" title="Link to this definition">¶</a></dt>
+<dd><p>convert a stats value which can be string
+of list to a float.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.dict_to_hash">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">dict_to_hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_dict</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">hash_length</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#dict_to_hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.dict_to_hash" title="Link to this definition">¶</a></dt>
+<dd><p>hash a dict to a string with length hash_length</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>input_dict</strong> – the given dict</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.nested_access">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">nested_access</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">digit_allowed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#nested_access"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.nested_access" title="Link to this definition">¶</a></dt>
+<dd><p>Access nested data using a dot-separated path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>data</strong> – A dictionary or a list to access the nested data from.</p></li>
+<li><p><strong>path</strong> – A dot-separated string representing the path to access.
+This can include numeric indices when accessing list
+elements.</p></li>
+<li><p><strong>digit_allowed</strong> – Allow transfering string to digit.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The value located at the specified path, or raises a KeyError
+or IndexError if the path does not exist.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.nested_set">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">nested_set</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">dict</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">val</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#nested_set"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.nested_set" title="Link to this definition">¶</a></dt>
+<dd><p>Set the val to the nested data in the dot-separated path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>data</strong> – A dictionary with nested format.</p></li>
+<li><p><strong>path</strong> – A dot-separated string representing the path to set.
+This can include numeric indices when setting list
+elements.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The nested data after the val set.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.is_string_list">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">is_string_list</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">var</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#is_string_list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.is_string_list" title="Link to this definition">¶</a></dt>
+<dd><p>return if the var is list of string.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>var</strong> – input variance</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.avg_split_string_list_under_limit">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">avg_split_string_list_under_limit</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">str_list</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">token_nums</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">list</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_token_num</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#avg_split_string_list_under_limit"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.avg_split_string_list_under_limit" title="Link to this definition">¶</a></dt>
+<dd><p>Split the string list to several sub str_list, such that the total
+token num of each sub string list is less than max_token_num, keeping
+the total token nums of sub string lists are similar.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>str_list</strong> – input string list.</p></li>
+<li><p><strong>token_nums</strong> – token num of each string list.</p></li>
+<li><p><strong>max_token_num</strong> – max token num of each sub string list.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.common_utils.is_float">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.common_utils.</span></span><span class="sig-name descname"><span class="pre">is_float</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">s</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/common_utils.html#is_float"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.common_utils.is_float" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.compress">
+<span id="data-juicer-utils-compress-module"></span><h2>data_juicer.utils.compress module<a class="headerlink" href="#module-data_juicer.utils.compress" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.FileLock">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">FileLock</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lock_file</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">os.PathLike</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">timeout</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">-1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">420</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">thread_local</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">blocking</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">is_singleton</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#FileLock"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.FileLock" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">FileLock</span></code></p>
+<p>File lock for compresssion or decompression, and
+remove lock file automatically.</p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Extractor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">Extractor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Extractor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Extractor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Extractor</span></code></p>
+<p>Extract content from a compressed file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Extractor.extract">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">extract</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">extractor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Extractor.extract"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Extractor.extract" title="Link to this definition">¶</a></dt>
+<dd><p>Extract content from a compressed file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to compressed file.</p></li>
+<li><p><strong>output_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>extractor_format</strong> – extraction format,
+see supported algorithm in <cite>Extractor</cite> of huggingface dataset.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.BaseCompressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">BaseCompressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#BaseCompressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.BaseCompressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ABC</span></code></p>
+<p>Base class that compresses a file.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.BaseCompressor.compress">
+<em class="property"><span class="pre">abstract</span><span class="w"> </span><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#BaseCompressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.BaseCompressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.ZstdCompressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">ZstdCompressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#ZstdCompressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.ZstdCompressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a></p>
+<p>This class compresses a file using the <cite>zstd</cite> algorithm.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.ZstdCompressor.compress">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#ZstdCompressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.ZstdCompressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Lz4Compressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">Lz4Compressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Lz4Compressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Lz4Compressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a></p>
+<p>This class compresses a file using the <cite>lz4</cite> algorithm.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Lz4Compressor.compress">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Lz4Compressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Lz4Compressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress a input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.GzipCompressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">GzipCompressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#GzipCompressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.GzipCompressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><code class="xref py py-class docutils literal notranslate"><span class="pre">BaseCompressor</span></code></a></p>
+<p>This class compresses a file using the <cite>gzip</cite> algorithm.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.GzipCompressor.compress">
+<em class="property"><span class="pre">static</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#GzipCompressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.GzipCompressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Compressor">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">Compressor</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Compressor"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Compressor" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class that contains multiple compressors.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Compressor.compressors">
+<span class="sig-name descname"><span class="pre">compressors</span></span><em class="property"><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="pre">Dict</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Type</span><span class="p"><span class="pre">[</span></span><a class="reference internal" href="#data_juicer.utils.compress.BaseCompressor" title="data_juicer.utils.compress.BaseCompressor"><span class="pre">BaseCompressor</span></a><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></em><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{'gzip':</span> <span class="pre">&lt;class</span> <span class="pre">'data_juicer.utils.compress.GzipCompressor'&gt;,</span> <span class="pre">'lz4':</span> <span class="pre">&lt;class</span> <span class="pre">'data_juicer.utils.compress.Lz4Compressor'&gt;,</span> <span class="pre">'zstd':</span> <span class="pre">&lt;class</span> <span class="pre">'data_juicer.utils.compress.ZstdCompressor'&gt;}</span></em><a class="headerlink" href="#data_juicer.utils.compress.Compressor.compressors" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.Compressor.compress">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#Compressor.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.Compressor.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+<li><p><strong>compressor_format</strong> – compression format,
+see supported algorithm in <cite>compressors</cite>.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">CompressManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to compress or decompress a input file
+using compression format algorithms.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>compressor_format</strong> – compression format algorithms,
+default <cite>zstd</cite>.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.compress">
+<span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to uncompressed file.</p></li>
+<li><p><strong>output_path</strong> – path to compressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressManager.decompress">
+<span class="sig-name descname"><span class="pre">decompress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Path</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressManager.decompress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressManager.decompress" title="Link to this definition">¶</a></dt>
+<dd><p>Decompress input file and save to output file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_path</strong> – path to compressed file.</p></li>
+<li><p><strong>output_path</strong> – path to uncompressed file.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">CacheCompressManager</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to compress or decompress huggingface cache files
+using compression format algorithms.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">compressor_format</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">'zstd'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>compressor_format</strong> – compression format algorithms,
+default <cite>zstd</cite>.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.compress">
+<span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">this_ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.compress" title="Link to this definition">¶</a></dt>
+<dd><p>Compress cache files with fingerprint in dataset cache directory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>prev_ds</strong> – previous dataset whose cache files need to be
+compressed here.</p></li>
+<li><p><strong>this_ds</strong> – Current dataset that is computed from the previous
+dataset. There might be overlaps between cache files of them, so we
+must not compress cache files that will be used again in the
+current dataset. If it’s None, it means all cache files of previous
+dataset should be compressed.</p></li>
+<li><p><strong>num_proc</strong> – number of processes to compress cache files.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.decompress">
+<span class="sig-name descname"><span class="pre">decompress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Dataset</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fingerprints</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.decompress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.decompress" title="Link to this definition">¶</a></dt>
+<dd><p>Decompress compressed cache files with fingerprint in
+dataset cache directory.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>ds</strong> – input dataset.</p></li>
+<li><p><strong>fingerprints</strong> – fingerprintd of cache files. String or List are
+accepted. If <cite>None</cite>, we will find all cache files which starts with
+<cite>cache-</cite> and ends with compression format.</p></li>
+<li><p><strong>num_proc</strong> – number of processes to decompress cache files.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.format_cache_file_name">
+<span class="sig-name descname"><span class="pre">format_cache_file_name</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">cache_file_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.format_cache_file_name"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name" title="Link to this definition">¶</a></dt>
+<dd><p>Use <cite>*</cite> to replace the sub rank in a cache file name.
+:param cache_file_name: a cache file name.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">
+<span class="sig-name descname"><span class="pre">cleanup_cache_files</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CacheCompressManager.cleanup_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files" title="Link to this definition">¶</a></dt>
+<dd><p>Clean up all compressed cache files in dataset cache directory,
+which starts with <cite>cache-</cite> and ends with compression format
+:param ds: input dataset.</p>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.CompressionOff">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">CompressionOff</span></span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#CompressionOff"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.CompressionOff" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Define a range that turn off the cache compression temporarily.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.compress">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">compress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">prev_ds</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">this_ds</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#compress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.compress" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.decompress">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">decompress</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fingerprints</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#decompress"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.decompress" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.compress.cleanup_compressed_cache_files">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.compress.</span></span><span class="sig-name descname"><span class="pre">cleanup_compressed_cache_files</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/compress.html#cleanup_compressed_cache_files"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.compress.cleanup_compressed_cache_files" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.constant">
+<span id="data-juicer-utils-constant-module"></span><h2>data_juicer.utils.constant module<a class="headerlink" href="#module-data_juicer.utils.constant" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">Fields</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#Fields"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.Fields" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.stats">
+<span class="sig-name descname"><span class="pre">stats</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__stats__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.stats" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.meta">
+<span class="sig-name descname"><span class="pre">meta</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__meta__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.meta" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.context">
+<span class="sig-name descname"><span class="pre">context</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__context__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.context" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.suffix">
+<span class="sig-name descname"><span class="pre">suffix</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__suffix__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.suffix" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.video_frame_tags">
+<span class="sig-name descname"><span class="pre">video_frame_tags</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__video_frame_tags__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.video_frame_tags" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.video_audio_tags">
+<span class="sig-name descname"><span class="pre">video_audio_tags</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__video_audio_tags__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.video_audio_tags" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.image_tags">
+<span class="sig-name descname"><span class="pre">image_tags</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__image_tags__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.image_tags" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.video_frames">
+<span class="sig-name descname"><span class="pre">video_frames</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__video_frames__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.video_frames" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.source_file">
+<span class="sig-name descname"><span class="pre">source_file</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__source_file__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.source_file" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.multimodal_data_output_dir">
+<span class="sig-name descname"><span class="pre">multimodal_data_output_dir</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__produced_data__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.multimodal_data_output_dir" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.event_description">
+<span class="sig-name descname"><span class="pre">event_description</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__event_description__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.event_description" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.relevant_characters">
+<span class="sig-name descname"><span class="pre">relevant_characters</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relevant_characters__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.relevant_characters" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.main_entities">
+<span class="sig-name descname"><span class="pre">main_entities</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__main_entities__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.main_entities" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.attributes">
+<span class="sig-name descname"><span class="pre">attributes</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__attributes__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.attributes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.attribute_descriptions">
+<span class="sig-name descname"><span class="pre">attribute_descriptions</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__attribute_descriptions__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.attribute_descriptions" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.attribute_support_texts">
+<span class="sig-name descname"><span class="pre">attribute_support_texts</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__attribute_support_texts__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.attribute_support_texts" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.nickname">
+<span class="sig-name descname"><span class="pre">nickname</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__nickname__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.nickname" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.entity">
+<span class="sig-name descname"><span class="pre">entity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__entity__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.entity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.entity_name">
+<span class="sig-name descname"><span class="pre">entity_name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__entity_name__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.entity_name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.entity_type">
+<span class="sig-name descname"><span class="pre">entity_type</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__entity_type__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.entity_type" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.entity_description">
+<span class="sig-name descname"><span class="pre">entity_description</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__entity_entity_description__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.entity_description" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.relation">
+<span class="sig-name descname"><span class="pre">relation</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relation__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.relation" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.source_entity">
+<span class="sig-name descname"><span class="pre">source_entity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relation_source_entity__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.source_entity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.target_entity">
+<span class="sig-name descname"><span class="pre">target_entity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relation_target_entity__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.target_entity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.relation_description">
+<span class="sig-name descname"><span class="pre">relation_description</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relation_description__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.relation_description" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.relation_keywords">
+<span class="sig-name descname"><span class="pre">relation_keywords</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relation_keywords__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.relation_keywords" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.relation_strength">
+<span class="sig-name descname"><span class="pre">relation_strength</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__relation_strength__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.relation_strength" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.keyword">
+<span class="sig-name descname"><span class="pre">keyword</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__keyword__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.keyword" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.Fields.support_text">
+<span class="sig-name descname"><span class="pre">support_text</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__support_text__'</span></em><a class="headerlink" href="#data_juicer.utils.constant.Fields.support_text" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysMeta">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">StatsKeysMeta</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeysMeta"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysMeta" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">type</span></code></p>
+<p>a helper class to track the mapping from OP’s name to its used stats_keys</p>
+<p>e.g., # once the AlphanumericFilter’s compute_stats method has been called
+res = TrackingDescriptor.get_access_log()
+print(res) # {“AlphanumericFilter”: [“alnum_ratio”, “alpha_token_ratio”]}</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysMeta.get_access_log">
+<span class="sig-name descname"><span class="pre">get_access_log</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dj_cfg</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeysMeta.get_access_log"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysMeta.get_access_log" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">StatsKeysConstant</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeysConstant"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio">
+<span class="sig-name descname"><span class="pre">alpha_token_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'alpha_token_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.alnum_ratio">
+<span class="sig-name descname"><span class="pre">alnum_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'alnum_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.alnum_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.avg_line_length">
+<span class="sig-name descname"><span class="pre">avg_line_length</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'avg_line_length'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.avg_line_length" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio">
+<span class="sig-name descname"><span class="pre">char_rep_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'char_rep_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio">
+<span class="sig-name descname"><span class="pre">flagged_words_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'flagged_words_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.lang">
+<span class="sig-name descname"><span class="pre">lang</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'lang'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.lang" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.lang_score">
+<span class="sig-name descname"><span class="pre">lang_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'lang_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.lang_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.max_line_length">
+<span class="sig-name descname"><span class="pre">max_line_length</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'max_line_length'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.max_line_length" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.perplexity">
+<span class="sig-name descname"><span class="pre">perplexity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'perplexity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.perplexity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.special_char_ratio">
+<span class="sig-name descname"><span class="pre">special_char_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'special_char_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.special_char_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio">
+<span class="sig-name descname"><span class="pre">stopwords_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'stopwords_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.text_len">
+<span class="sig-name descname"><span class="pre">text_len</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'text_len'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.text_len" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_action">
+<span class="sig-name descname"><span class="pre">num_action</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_action'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_action" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges">
+<span class="sig-name descname"><span class="pre">num_dependency_edges</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_dependency_edges'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_token">
+<span class="sig-name descname"><span class="pre">num_token</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_token'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_token" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.num_words">
+<span class="sig-name descname"><span class="pre">num_words</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'num_words'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.num_words" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio">
+<span class="sig-name descname"><span class="pre">word_rep_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'word_rep_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.aspect_ratios">
+<span class="sig-name descname"><span class="pre">aspect_ratios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'aspect_ratios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.aspect_ratios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_width">
+<span class="sig-name descname"><span class="pre">image_width</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_width'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_width" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_height">
+<span class="sig-name descname"><span class="pre">image_height</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_height'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_height" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_sizes">
+<span class="sig-name descname"><span class="pre">image_sizes</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_sizes'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_sizes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.face_ratios">
+<span class="sig-name descname"><span class="pre">face_ratios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'face_ratios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.face_ratios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.face_detections">
+<span class="sig-name descname"><span class="pre">face_detections</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'face_detections'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.face_detections" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.face_counts">
+<span class="sig-name descname"><span class="pre">face_counts</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'face_counts'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.face_counts" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores">
+<span class="sig-name descname"><span class="pre">image_aesthetics_scores</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_aesthetics_scores'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score">
+<span class="sig-name descname"><span class="pre">image_nsfw_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_nsfw_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob">
+<span class="sig-name descname"><span class="pre">image_watermark_prob</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_watermark_prob'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity">
+<span class="sig-name descname"><span class="pre">image_pair_similarity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_pair_similarity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.audio_duration">
+<span class="sig-name descname"><span class="pre">audio_duration</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'audio_duration'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.audio_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr">
+<span class="sig-name descname"><span class="pre">audio_nmf_snr</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'audio_nmf_snr'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.audio_sizes">
+<span class="sig-name descname"><span class="pre">audio_sizes</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'audio_sizes'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.audio_sizes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_duration">
+<span class="sig-name descname"><span class="pre">video_duration</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_duration'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_duration" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios">
+<span class="sig-name descname"><span class="pre">video_aspect_ratios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_aspect_ratios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_width">
+<span class="sig-name descname"><span class="pre">video_width</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_width'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_width" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_height">
+<span class="sig-name descname"><span class="pre">video_height</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_height'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_height" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio">
+<span class="sig-name descname"><span class="pre">video_ocr_area_ratio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_ocr_area_ratio'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score">
+<span class="sig-name descname"><span class="pre">video_aesthetic_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_aesthetic_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score">
+<span class="sig-name descname"><span class="pre">video_frames_aesthetics_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_frames_aesthetics_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_motion_score">
+<span class="sig-name descname"><span class="pre">video_motion_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_motion_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_motion_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score">
+<span class="sig-name descname"><span class="pre">video_nsfw_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_nsfw_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob">
+<span class="sig-name descname"><span class="pre">video_watermark_prob</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_watermark_prob'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_text_similarity">
+<span class="sig-name descname"><span class="pre">image_text_similarity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_text_similarity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_text_similarity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score">
+<span class="sig-name descname"><span class="pre">image_text_matching_score</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'image_text_matching_score'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall">
+<span class="sig-name descname"><span class="pre">phrase_grounding_recall</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'phrase_grounding_recall'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity">
+<span class="sig-name descname"><span class="pre">video_frames_text_similarity</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'video_frames_text_similarity'</span></em><a class="headerlink" href="#data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.StatsKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">StatsKeys</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#StatsKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.StatsKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">HashKeys</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#HashKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.HashKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.hash">
+<span class="sig-name descname"><span class="pre">hash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__hash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.hash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.minhash">
+<span class="sig-name descname"><span class="pre">minhash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__minhash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.minhash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.simhash">
+<span class="sig-name descname"><span class="pre">simhash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__simhash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.simhash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.imagehash">
+<span class="sig-name descname"><span class="pre">imagehash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__imagehash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.imagehash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.videohash">
+<span class="sig-name descname"><span class="pre">videohash</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__videohash'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.videohash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.HashKeys.is_duplicate">
+<span class="sig-name descname"><span class="pre">is_duplicate</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__is_duplicate'</span></em><a class="headerlink" href="#data_juicer.utils.constant.HashKeys.is_duplicate" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">InterVars</span></span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#InterVars"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.InterVars" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.lines">
+<span class="sig-name descname"><span class="pre">lines</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__lines'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.lines" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.words">
+<span class="sig-name descname"><span class="pre">words</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__words'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.words" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.refined_words">
+<span class="sig-name descname"><span class="pre">refined_words</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__refined_words'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.refined_words" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.loaded_images">
+<span class="sig-name descname"><span class="pre">loaded_images</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__loaded_images'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.loaded_images" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.loaded_audios">
+<span class="sig-name descname"><span class="pre">loaded_audios</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__loaded_audios'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.loaded_audios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.loaded_videos">
+<span class="sig-name descname"><span class="pre">loaded_videos</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__loaded_videos'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.loaded_videos" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.InterVars.sampled_frames">
+<span class="sig-name descname"><span class="pre">sampled_frames</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'__dj__sampled_frames'</span></em><a class="headerlink" href="#data_juicer.utils.constant.InterVars.sampled_frames" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.constant.</span></span><span class="sig-name descname"><span class="pre">JobRequiredKeys</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/constant.html#JobRequiredKeys"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">Enum</span></code></p>
+<p>An enumeration.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.hook">
+<span class="sig-name descname"><span class="pre">hook</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'hook'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.hook" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.dj_configs">
+<span class="sig-name descname"><span class="pre">dj_configs</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'dj_configs'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.dj_configs" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.meta_name">
+<span class="sig-name descname"><span class="pre">meta_name</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'meta_name'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.meta_name" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.constant.JobRequiredKeys.extra_configs">
+<span class="sig-name descname"><span class="pre">extra_configs</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'extra_configs'</span></em><a class="headerlink" href="#data_juicer.utils.constant.JobRequiredKeys.extra_configs" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.file_utils">
+<span id="data-juicer-utils-file-utils-module"></span><h2>data_juicer.utils.file_utils module<a class="headerlink" href="#module-data_juicer.utils.file_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.follow_read">
+<em class="property"><span class="k"><span class="pre">async</span></span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">follow_read</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">logfile_path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">skip_existing_content</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bool</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">AsyncGenerator</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#follow_read"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.follow_read" title="Link to this definition">¶</a></dt>
+<dd><p>Read a file in online and iterative manner</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>logfile_path</strong> (<cite>str</cite>) – The file path to be read.</p></li>
+<li><p><strong>skip_existing_content</strong> (<cite>bool</cite>, defaults to <a href="#id1"><span class="problematic" id="id2">`</span></a>False) – If True, read from the end, otherwise read from the beginning.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>One line string of the file content.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.find_files_with_suffix">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">find_files_with_suffix</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffixes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">str</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#find_files_with_suffix"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.find_files_with_suffix" title="Link to this definition">¶</a></dt>
+<dd><p>Traverse a path to find all files with the specified suffixes.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>path</strong> – path (str/Path): source path</p></li>
+<li><p><strong>suffixes</strong> – specified file suffixes, ‘.txt’ or [‘.txt’, ‘.md’]
+etc</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>list of all files with the specified suffixes</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.is_absolute_path">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">is_absolute_path</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">bool</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#is_absolute_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.is_absolute_path" title="Link to this definition">¶</a></dt>
+<dd><p>Check whether input path is a absolute path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>path</strong> – input path</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>True means input path is absolute path, False means input
+path is a relative path.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.add_suffix_to_filename">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">add_suffix_to_filename</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">filename</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">suffix</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#add_suffix_to_filename"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.add_suffix_to_filename" title="Link to this definition">¶</a></dt>
+<dd><p>Add a suffix to the filename. Only regard the content after the last dot
+as the file extension.
+E.g.
+1. abc.jpg + “_resized” –&gt; abc_resized.jpg
+2. edf.xyz.csv + “_processed” –&gt; edf.xyz_processed.csv
+3. /path/to/file.json + “_suf” –&gt; /path/to/file_suf.json
+4. ds.tar.gz + “_whoops” –&gt; ds.tar_whoops.gz (maybe unexpected)</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>filename</strong> – input filename</p></li>
+<li><p><strong>suffix</strong> – suffix string to be added</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.create_directory_if_not_exists">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">create_directory_if_not_exists</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">directory_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#create_directory_if_not_exists"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.create_directory_if_not_exists" title="Link to this definition">¶</a></dt>
+<dd><p>create a directory if not exists, this function is process safe</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>directory_path</strong> – directory path to be create</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.transfer_filename">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">transfer_filename</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_filepath</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">op_name</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">op_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#transfer_filename"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.transfer_filename" title="Link to this definition">¶</a></dt>
+<dd><p>According to the op and hashing its parameters ‘op_kwargs’ addition
+to the process id and current time as the ‘hash_val’, map the
+original_filepath to another unique file path. E.g.</p>
+<blockquote>
+<div><ol class="arabic simple">
+<li><dl class="simple">
+<dt>abc.jpg –&gt;</dt><dd><p>__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val}#.jpg</p>
+</dd>
+</dl>
+</li>
+<li><dl class="simple">
+<dt>./abc.jpg –&gt;</dt><dd><p>./__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val}#.jpg</p>
+</dd>
+</dl>
+</li>
+<li><dl class="simple">
+<dt>/path/to/abc.jpg –&gt;</dt><dd><p>/path/to/__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val}#.jpg</p>
+</dd>
+</dl>
+</li>
+<li><dl class="simple">
+<dt>/path/to/__dj__produced_data__/{op_name}/</dt><dd><p>abc__dj_hash_#{hash_val1}#.jpg –&gt;
+/path/to/__dj__produced_data__/{op_name}/
+abc__dj_hash_#{hash_val2}#.jpg</p>
+</dd>
+</dl>
+</li>
+</ol>
+</div></blockquote>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.file_utils.copy_data">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.file_utils.</span></span><span class="sig-name descname"><span class="pre">copy_data</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">from_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">to_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">data_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/file_utils.html#copy_data"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.file_utils.copy_data" title="Link to this definition">¶</a></dt>
+<dd><p>Copy data from from_dir/data_path to to_dir/data_path.
+Return True if success.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.fingerprint_utils">
+<span id="data-juicer-utils-fingerprint-utils-module"></span><h2>data_juicer.utils.fingerprint_utils module<a class="headerlink" href="#module-data_juicer.utils.fingerprint_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">Hasher</span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Hasher that accepts python objects as inputs.</p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.dispatch">
+<span class="sig-name descname"><span class="pre">dispatch</span></span><em class="property"><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="pre">Dict</span></em><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">{}</span></em><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.dispatch" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">hash_bytes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">bytes</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">bytes</span><span class="p"><span class="pre">]</span></span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hash_bytes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hash_default">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">hash_default</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hash_default"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hash_default" title="Link to this definition">¶</a></dt>
+<dd><p>Use dill to serialize objects to avoid serialization failures.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hash">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">hash</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hash"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hash" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.update">
+<span class="sig-name descname"><span class="pre">update</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">value</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Any</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.update"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.update" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.Hasher.hexdigest">
+<span class="sig-name descname"><span class="pre">hexdigest</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">str</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#Hasher.hexdigest"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.Hasher.hexdigest" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.update_fingerprint">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">update_fingerprint</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">fingerprint</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">transform</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">transform_args</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#update_fingerprint"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.update_fingerprint" title="Link to this definition">¶</a></dt>
+<dd><p>Combining various objects to update the fingerprint.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.fingerprint_utils.generate_fingerprint">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.fingerprint_utils.</span></span><span class="sig-name descname"><span class="pre">generate_fingerprint</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">ds</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">args</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/fingerprint_utils.html#generate_fingerprint"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.fingerprint_utils.generate_fingerprint" title="Link to this definition">¶</a></dt>
+<dd><p>Generate new fingerprints by using various kwargs of the dataset.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.lazy_loader">
+<span id="data-juicer-utils-lazy-loader-module"></span><h2>data_juicer.utils.lazy_loader module<a class="headerlink" href="#module-data_juicer.utils.lazy_loader" title="Link to this heading">¶</a></h2>
+<p>A LazyLoader class.</p>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.lazy_loader.LazyLoader">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.lazy_loader.</span></span><span class="sig-name descname"><span class="pre">LazyLoader</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">local_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">auto_install</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/lazy_loader.html#LazyLoader"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.lazy_loader.LazyLoader" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">ModuleType</span></code></p>
+<p>Lazily import a module, mainly to avoid pulling in large dependencies.
+<cite>contrib</cite>, and <cite>ffmpeg</cite> are examples of modules that are large and not
+always needed, and this allows them to only be loaded when they are used.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.lazy_loader.LazyLoader.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">local_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">auto_install</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/lazy_loader.html#LazyLoader.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.lazy_loader.LazyLoader.__init__" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.logger_utils">
+<span id="data-juicer-utils-logger-utils-module"></span><h2>data_juicer.utils.logger_utils module<a class="headerlink" href="#module-data_juicer.utils.logger_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.get_caller_name">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">get_caller_name</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">depth</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#get_caller_name"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.get_caller_name" title="Link to this definition">¶</a></dt>
+<dd><p>Get caller name by depth.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>depth</strong> – depth of caller context, use 0 for caller depth.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>module name of the caller</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">StreamToLoguru</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Stream object that redirects writes to a logger instance.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">caller_names</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">('datasets',</span> <span class="pre">'logging')</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>level</strong> – log level string of loguru. Default value: “INFO”.</p></li>
+<li><p><strong>caller_names</strong> – caller names of redirected module.
+Default value: (apex, pycocotools).</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.write">
+<span class="sig-name descname"><span class="pre">write</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">buf</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.write"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.write" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.getvalue">
+<span class="sig-name descname"><span class="pre">getvalue</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.getvalue"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.getvalue" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.StreamToLoguru.flush">
+<span class="sig-name descname"><span class="pre">flush</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#StreamToLoguru.flush"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.StreamToLoguru.flush" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.redirect_sys_output">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">redirect_sys_output</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">log_level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#redirect_sys_output"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.redirect_sys_output" title="Link to this definition">¶</a></dt>
+<dd><p>Redirect stdout/stderr to loguru with log level.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>log_level</strong> – log level string of loguru. Default value: “INFO”.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.get_log_file_path">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">get_log_file_path</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#get_log_file_path"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.get_log_file_path" title="Link to this definition">¶</a></dt>
+<dd><p>Get the path to the location of the log file.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>a location of log file.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.setup_logger">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">setup_logger</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">save_dir</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">distributed_rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">filename</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'log.txt'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'o'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">level</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'INFO'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">redirect</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#setup_logger"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.setup_logger" title="Link to this definition">¶</a></dt>
+<dd><p>Setup logger for training and testing.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>save_dir</strong> – location to save log file</p></li>
+<li><p><strong>distributed_rank</strong> – device rank when multi-gpu environment</p></li>
+<li><p><strong>filename</strong> – log file name to save</p></li>
+<li><p><strong>mode</strong> – log file write mode, <cite>append</cite> or <cite>override</cite>. default is <cite>o</cite>.</p></li>
+<li><p><strong>level</strong> – log severity level. It’s “INFO” in default.</p></li>
+<li><p><strong>redirect</strong> – whether to redirect system output</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>logger instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.logger_utils.HiddenPrints">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.logger_utils.</span></span><span class="sig-name descname"><span class="pre">HiddenPrints</span></span><a class="reference internal" href="_modules/data_juicer/utils/logger_utils.html#HiddenPrints"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.logger_utils.HiddenPrints" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>Define a range that hide the outputs within this range.</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.mm_utils">
+<span id="data-juicer-utils-mm-utils-module"></span><h2>data_juicer.utils.mm_utils module<a class="headerlink" href="#module-data_juicer.utils.mm_utils" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">SpecialTokens</span></span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#SpecialTokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.image">
+<span class="sig-name descname"><span class="pre">image</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;__dj__image&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.image" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.audio">
+<span class="sig-name descname"><span class="pre">audio</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;__dj__audio&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.audio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.video">
+<span class="sig-name descname"><span class="pre">video</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;__dj__video&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.video" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py attribute">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.SpecialTokens.eoc">
+<span class="sig-name descname"><span class="pre">eoc</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'&lt;|__dj__eoc|&gt;'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.SpecialTokens.eoc" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+<dl class="py data">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">AV_STREAM_THREAD_TYPE</span></span><em class="property"><span class="w"> </span><span class="p"><span class="pre">=</span></span><span class="w"> </span><span class="pre">'AUTO'</span></em><a class="headerlink" href="#data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE" title="Link to this definition">¶</a></dt>
+<dd><p>av stream thread type support “SLICE”, “FRAME”, “AUTO”.</p>
+<p>“SLICE”: Decode more than one part of a single frame at once</p>
+<p>“FRAME”: Decode more than one frame at once</p>
+<p>“AUTO”: Using both “FRAME” and “SLICE”
+AUTO is faster when there are no video latency.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_special_tokens">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_special_tokens</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_special_tokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_special_tokens" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.remove_special_tokens">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">remove_special_tokens</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#remove_special_tokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.remove_special_tokens" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.remove_non_special_tokens">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">remove_non_special_tokens</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">text</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#remove_non_special_tokens"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.remove_non_special_tokens" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_data_with_context">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_data_with_context</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">sample</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">context</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">loaded_data_keys</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">load_func</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_data_with_context"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_data_with_context" title="Link to this definition">¶</a></dt>
+<dd><p>The unified loading function with contexts for multimodal data.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_images">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_images</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_images"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_images" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_images_byte">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_images_byte</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_images_byte"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_images_byte" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_image">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_image</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_image"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_image" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_image_byte">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_image_byte</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_image_byte"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_image_byte" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.image_path_to_base64">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">image_path_to_base64</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">image_path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#image_path_to_base64"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.image_path_to_base64" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.image_byte_to_base64">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">image_byte_to_base64</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">image_byte</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#image_byte_to_base64"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.image_byte_to_base64" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.pil_to_opencv">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">pil_to_opencv</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pil_image</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#pil_to_opencv"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.pil_to_opencv" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.detect_faces">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">detect_faces</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">image</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">detector</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">extra_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#detect_faces"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.detect_faces" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_file_size">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_file_size</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_file_size"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_file_size" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.iou">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">iou</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">box1</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">box2</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#iou"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.iou" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.calculate_resized_dimensions">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">calculate_resized_dimensions</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">target_size</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">max_length</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">divisible</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">Tuple</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">int</span><span class="p"><span class="pre">]</span></span></span></span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#calculate_resized_dimensions"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.calculate_resized_dimensions" title="Link to this definition">¶</a></dt>
+<dd><p>Resize dimensions based on specified constraints.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>original_size</strong> – The original dimensions as (height, width).</p></li>
+<li><p><strong>target_size</strong> – Desired target size; can be a single integer
+(short edge) or a tuple (height, width).</p></li>
+<li><p><strong>max_length</strong> – Maximum allowed length for the longer edge.</p></li>
+<li><p><strong>divisible</strong> – The number that the dimensions must be divisible by.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>Resized dimensions as (height, width).</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_audios">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_audios</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_audios"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_audios" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_audio">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_audio</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">sampling_rate</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_audio"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_audio" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_videos">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_videos</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">paths</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_videos"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_videos" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.load_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">load_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mode</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'r'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#load_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.load_video" title="Link to this definition">¶</a></dt>
+<dd><p>Load a video using its path.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>path</strong> – the path to this video.</p></li>
+<li><p><strong>mode</strong> – the loading mode. It’s “r” in default.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a container object form PyAv library, which contains all streams
+in this video (video/audio/…) and can be used to decode these streams
+to frames.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_video_duration">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_video_duration</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">video_stream_index</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_video_duration"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_video_duration" title="Link to this definition">¶</a></dt>
+<dd><p>Get the video’s duration from the container</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the container object form PyAv library, which
+contains all streams in this video (video/audio/…) and can be used
+to decode these streams to frames.</p></li>
+<li><p><strong>video_stream_index</strong> – the video stream index to decode,
+default set to 0.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>duration of the video in second</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_decoded_frames_from_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_decoded_frames_from_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">video_stream_index</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_decoded_frames_from_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_decoded_frames_from_video" title="Link to this definition">¶</a></dt>
+<dd><p>Get the video’s frames from the container</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the container object form PyAv library, which
+contains all streams in this video (video/audio/…) and can be used
+to decode these streams to frames.</p></li>
+<li><p><strong>video_stream_index</strong> – the video stream index to decode,
+default set to 0.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>an iterator of all the frames of the video</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.cut_video_by_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">cut_video_by_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">start_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">end_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#cut_video_by_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.cut_video_by_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Cut a video into several segments by times in second.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the path to input video or the video container.</p></li>
+<li><p><strong>output_video</strong> – the path to output video.</p></li>
+<li><p><strong>start_seconds</strong> – the start time in second.</p></li>
+<li><p><strong>end_seconds</strong> – the end time in second. If it’s None, this function
+will cut the video from the start_seconds to the end of the video.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a boolean flag indicating whether the video was successfully
+cut or not.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.process_each_frame">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">process_each_frame</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_func</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#process_each_frame"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.process_each_frame" title="Link to this definition">¶</a></dt>
+<dd><p>Process each frame in video by replacing each frame by
+<cite>frame_func(frame)</cite>.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – the path to input video or the video container.</p></li>
+<li><p><strong>output_video</strong> – the path to output video.</p></li>
+<li><p><strong>frame_func</strong> – a function which inputs a frame and outputs another
+frame.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_key_frames_by_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_key_frames_by_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_key_frames_by_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_key_frames_by_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Extract key frames by seconds.
+:param input_video: input video path or av.container.InputContainer.
+:param duration: duration of each video split in seconds.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_key_frames">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_key_frames</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_key_frames"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_key_frames" title="Link to this definition">¶</a></dt>
+<dd><p>Extract key frames from the input video. If there is no keyframes in the
+video, return the first frame.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>input_video</strong> – input video path or container.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a list of key frames.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.get_key_frame_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">get_key_frame_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#get_key_frame_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.get_key_frame_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Get seconds of key frames in the input video.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_video_frames_uniformly_by_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span></em>, <em class="sig-param"><span class="n"><span class="pre">duration</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">float</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">1</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_video_frames_uniformly_by_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Extract video frames uniformly by seconds.
+:param input_video: input video path or av.container.InputContainer.
+:param frame_num: the number of frames to be extracted uniformly from</p>
+<blockquote>
+<div><p>each video split by duration.</p>
+</div></blockquote>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>duration</strong> – duration of each video split in seconds.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_video_frames_uniformly">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_video_frames_uniformly</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">frame_num</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">Annotated</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">,</span></span><span class="w"> </span><span class="pre">Gt</span><span class="p"><span class="pre">(</span></span><span class="n"><span class="pre">gt</span></span><span class="o"><span class="pre">=</span></span><span class="m"><span class="pre">0</span></span><span class="p"><span class="pre">)</span></span><span class="p"><span class="pre">]</span></span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_video_frames_uniformly"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_video_frames_uniformly" title="Link to this definition">¶</a></dt>
+<dd><p>Extract a number of video frames uniformly within the video duration.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – input video path or container.</p></li>
+<li><p><strong>frame_num</strong> – The number of frames to be extracted. If it’s 1, only the
+middle frame will be extracted. If it’s 2, only the first and the last
+frames will be extracted. If it’s larger than 2, in addition to the
+first and the last frames, other frames will be extracted uniformly
+within the video duration.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a list of extracted frames.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.extract_audio_from_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">extract_audio_from_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">input_video</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">InputContainer</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">output_audio</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">start_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">end_seconds</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">stream_indexes</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">int</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">List</span><span class="p"><span class="pre">[</span></span><span class="pre">int</span><span class="p"><span class="pre">]</span></span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#extract_audio_from_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.extract_audio_from_video" title="Link to this definition">¶</a></dt>
+<dd><p>Extract audio data for the given video.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>input_video</strong> – input video. Can be a video path or an
+av.container.InputContainer.</p></li>
+<li><p><strong>output_audio</strong> – output audio path. If it’s None, the audio data won’t
+be written to file. If stream_indexes is not None, it will output
+multiple audio files with original filename and the stream indexes.
+Default: None.</p></li>
+<li><p><strong>start_seconds</strong> – the start seconds to extract audio data. Default: 0,
+which means extract from the start of the video.</p></li>
+<li><p><strong>end_seconds</strong> – the end seconds to stop extracting audio data. If it’s
+None, the extraction won’t stop until the end of the video. Default:
+None.</p></li>
+<li><p><strong>stream_indexes</strong> – there might be multiple audio streams in the video,
+so we need to decide which audio streams with stream_indexes will be
+extracted. It can be a single index or a list of indexes. If it’s None,
+all audio streams will be extracted. Default: None.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.size_to_bytes">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">size_to_bytes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">size</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#size_to_bytes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.size_to_bytes" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.insert_texts_after_placeholders">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">insert_texts_after_placeholders</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">original_string</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">placeholders</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">new_texts</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">delimiter_in_insert_pos</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'</span> <span class="pre">'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#insert_texts_after_placeholders"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.insert_texts_after_placeholders" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.timecode_string_to_seconds">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">timecode_string_to_seconds</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">timecode</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#timecode_string_to_seconds"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.timecode_string_to_seconds" title="Link to this definition">¶</a></dt>
+<dd><p>Convert a timecode string to the float seconds.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>timecode</strong> – the input timecode string. Must in “HH:MM:SS.fff(fff)”
+format.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.parse_string_to_roi">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">parse_string_to_roi</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">roi_string</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">roi_type</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'pixel'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#parse_string_to_roi"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.parse_string_to_roi" title="Link to this definition">¶</a></dt>
+<dd><p>Convert a roi string to four number x1, y1, x2, y2 stand for the region.
+When the type is ‘pixel’, (x1, y1), (x2, y2) are the locations of pixels
+in the top left corner and the bottom right corner respectively. If the
+roi_type is ‘ratio’, the coordinates are normalized by wights and
+heights.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>roi_string</strong> – the roi string</p>
+</dd>
+<dt class="field-even">Patam roi_type<span class="colon">:</span></dt>
+<dd class="field-even"><p>the roi string type</p>
+</dd>
+</dl>
+<p>return tuple of (x1, y1, x2, y2) if roi_string is valid, else None</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.mm_utils.close_video">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.mm_utils.</span></span><span class="sig-name descname"><span class="pre">close_video</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">container</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">InputContainer</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/mm_utils.html#close_video"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.mm_utils.close_video" title="Link to this definition">¶</a></dt>
+<dd><p>Close the video stream and container to avoid memory leak.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>container</strong> – the video container.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.model_utils">
+<span id="data-juicer-utils-model-utils-module"></span><h2>data_juicer.utils.model_utils module<a class="headerlink" href="#module-data_juicer.utils.model_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.get_backup_model_link">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">get_backup_model_link</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#get_backup_model_link"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.get_backup_model_link" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.check_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">check_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#check_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.check_model" title="Link to this definition">¶</a></dt>
+<dd><p>Check whether a model exists in DATA_JUICER_MODELS_CACHE.
+If exists, return its full path.
+Else, download it from cached models links.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – a specified model name</p></li>
+<li><p><strong>force</strong> – Whether to download model forcefully or not, Sometimes
+the model file maybe incomplete for some reason, so need to
+download again forcefully.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.APIModel">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">APIModel</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">endpoint</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#APIModel"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.APIModel" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.APIModel.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">endpoint</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#APIModel.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.APIModel.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initializes an instance of the APIModel class.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model</strong> – The name of the model to be used for making API
+calls. This should correspond to a valid model identifier
+recognized by the API server.</p></li>
+<li><p><strong>endpoint</strong> – The URL endpoint for the API. If provided as a
+relative path, it will be appended to the base URL (defined by the
+<cite>OPENAI_BASE_URL</cite> environment variable or through an additional
+<cite>base_url</cite> parameter). Defaults to ‘/chat/completions’ for
+OpenAI compatibility.</p></li>
+<li><p><strong>response_path</strong> – A dot-separated string specifying the path to
+extract the desired content from the API response. The default
+value is ‘choices.0.message.content’, which corresponds to the
+typical structure of an OpenAI API response.</p></li>
+<li><p><strong>kwargs</strong> – Additional keyword arguments for configuring the
+internal OpenAI client.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_api_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_api_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">endpoint</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">response_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_processor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">processor_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_api_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_api_model" title="Link to this definition">¶</a></dt>
+<dd><p>Creates a callable API model for interacting with OpenAI-compatible API.
+The callable supports custom response parsing and works with proxy servers
+that may be incompatible.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model</strong> – The name of the model to interact with.</p></li>
+<li><p><strong>endpoint</strong> – The URL endpoint for the API. If provided as a relative
+path, it will be appended to the base URL (defined by the
+<cite>OPENAI_BASE_URL</cite> environment variable or through an additional
+<cite>base_url</cite> parameter). By default, it is set to
+‘/chat/completions’ for OpenAI compatibility.</p></li>
+<li><p><strong>response_path</strong> – The dot-separated  path to extract desired content
+from the API response. Defaults to ‘choices.0.message.content’.</p></li>
+<li><p><strong>return_processor</strong> – A boolean flag indicating whether to return a
+processor along with the model. The processor can be used for tasks
+like tokenization or encoding. Defaults to False.</p></li>
+<li><p><strong>processor_config</strong> – A dictionary containing configuration parameters
+for initializing a Hugging Face processor. It is only relevant if
+<cite>return_processor</cite> is set to True.</p></li>
+<li><p><strong>model_params</strong> – Additional parameters for configuring the API model.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>A callable APIModel instance, and optionally a processor
+if <cite>return_processor</cite> is True.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_diffusion_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_diffusion_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">diffusion_type</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_diffusion_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_diffusion_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load an Diffusion model from HuggingFace.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – input Diffusion model name
+or local path to the model</p></li>
+<li><p><strong>diffusion_type</strong> – the use of the diffusion model. It can be
+‘image2image’, ‘text2image’, ‘inpainting’</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a Diffusion model.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_fasttext_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_fasttext_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'lid.176.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_fasttext_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_fasttext_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a fasttext model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>model_name</strong> – input model name</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_huggingface_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_huggingface_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_pipe</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">pipe_task</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'text-generation'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_huggingface_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_huggingface_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a HuggingFace model with the correspoding processor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>return_model</strong> – return model or not</p></li>
+<li><p><strong>return_pipe</strong> – whether to wrap model into pipeline</p></li>
+<li><p><strong>model_params</strong> – model initialization parameters.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple of (model, input processor) if <cite>return_model</cite> is True;
+otherwise, only the processor is returned.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_kenlm_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_kenlm_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'{}.arpa.bin'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_kenlm_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_kenlm_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a kenlm model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – input model name in formatting syntax.</p></li>
+<li><p><strong>lang</strong> – language to render model name</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_nltk_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_nltk_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'punkt.{}.pickle'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_nltk_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_nltk_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a nltk punkt model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – input model name in formatting syntax</p></li>
+<li><p><strong>lang</strong> – language to render model name</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_opencv_classifier">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_opencv_classifier</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_opencv_classifier"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_opencv_classifier" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_recognizeAnything_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_recognizeAnything_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'ram_plus_swin_large_14m.pth'</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">input_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">384</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_recognizeAnything_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_recognizeAnything_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load recognizeAnything model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>model_name</strong> – input model name.</p></li>
+<li><p><strong>input_size</strong> – the input size of the model.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_sentencepiece_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_sentencepiece_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_sentencepiece_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_sentencepiece_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a sentencepiece model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>model_path</strong> – input model path</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_sentencepiece_for_lang">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_sentencepiece_for_lang</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'{}.sp.model'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_sentencepiece_for_lang"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a sentencepiece model for specific langauge.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>lang</strong> – language to render model name</p></li>
+<li><p><strong>name_pattern</strong> – pattern to render the model name</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>model instance.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_simple_aesthetics_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_simple_aesthetics_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_simple_aesthetics_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_simple_aesthetics_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a simple aesthetics model.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>return_model</strong> – return model or not</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple (model, input processor) if <cite>return_model</cite> is True;
+otherwise, only the processor is returned.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_spacy_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_spacy_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">lang</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">name_pattern</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'{}_core_web_md-3.7.0'</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_spacy_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_spacy_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare spacy model for specific language.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>lang</strong> – language of sapcy model. Should be one of [“zh”,
+“en”]</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>corresponding spacy model</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_video_blip_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_video_blip_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">*</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">return_model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">True</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_video_blip_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_video_blip_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a video-clip model with the correspoding processor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>return_model</strong> – return model or not</p></li>
+<li><p><strong>trust_remote_code</strong> – passed to transformers</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple (model, input processor) if <cite>return_model</cite> is True;
+otherwise, only the processor is returned.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_vllm_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_vllm_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">pretrained_model_name_or_path</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_params</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_vllm_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_vllm_model" title="Link to this definition">¶</a></dt>
+<dd><p>Prepare and load a HuggingFace model with the correspoding processor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>pretrained_model_name_or_path</strong> – model name or path</p></li>
+<li><p><strong>model_params</strong> – LLM initialization parameters.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>a tuple of (model, tokenizer)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.prepare_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">prepare_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_type</span></span></em>, <em class="sig-param"><span class="o"><span class="pre">**</span></span><span class="n"><span class="pre">model_kwargs</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#prepare_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.prepare_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.get_model">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">get_model</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">model_key</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">rank</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_cuda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#get_model"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.get_model" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.model_utils.free_models">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.model_utils.</span></span><span class="sig-name descname"><span class="pre">free_models</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/model_utils.html#free_models"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.model_utils.free_models" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.process_utils">
+<span id="data-juicer-utils-process-utils-module"></span><h2>data_juicer.utils.process_utils module<a class="headerlink" href="#module-data_juicer.utils.process_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.process_utils.setup_mp">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.process_utils.</span></span><span class="sig-name descname"><span class="pre">setup_mp</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">method</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/process_utils.html#setup_mp"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.process_utils.setup_mp" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.process_utils.get_min_cuda_memory">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.process_utils.</span></span><span class="sig-name descname"><span class="pre">get_min_cuda_memory</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/process_utils.html#get_min_cuda_memory"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.process_utils.get_min_cuda_memory" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.process_utils.calculate_np">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.process_utils.</span></span><span class="sig-name descname"><span class="pre">calculate_np</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">mem_required</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">cpu_required</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_proc</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">use_cuda</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/process_utils.html#calculate_np"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.process_utils.calculate_np" title="Link to this definition">¶</a></dt>
+<dd><p>Calculate the optimum number of processes for the given OP</p>
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.registry">
+<span id="data-juicer-utils-registry-module"></span><h2>data_juicer.utils.registry module<a class="headerlink" href="#module-data_juicer.utils.registry" title="Link to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.registry.</span></span><span class="sig-name descname"><span class="pre">Registry</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">object</span></code></p>
+<p>This class is used to register some modules to registry by a repo
+name.</p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.__init__" title="Link to this definition">¶</a></dt>
+<dd><p>Initialization method.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>name</strong> – a registry repo name</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.name">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">name</span></span><a class="headerlink" href="#data_juicer.utils.registry.Registry.name" title="Link to this definition">¶</a></dt>
+<dd><p>Get name of current registry.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>name of current registry.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py property">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.modules">
+<em class="property"><span class="pre">property</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">modules</span></span><a class="headerlink" href="#data_juicer.utils.registry.Registry.modules" title="Link to this definition">¶</a></dt>
+<dd><p>Get all modules in current registry.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Returns<span class="colon">:</span></dt>
+<dd class="field-odd"><p>a dict storing modules in current registry.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.list">
+<span class="sig-name descname"><span class="pre">list</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.list"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.list" title="Link to this definition">¶</a></dt>
+<dd><p>Logging the list of module in current registry.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.get">
+<span class="sig-name descname"><span class="pre">get</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.get"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.get" title="Link to this definition">¶</a></dt>
+<dd><p>Get module named module_key from in current registry. If not found,
+return None.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>module_key</strong> – specified module name</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>module named module_key</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.registry.Registry.register_module">
+<span class="sig-name descname"><span class="pre">register_module</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">module_name</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">str</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">module_cls</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><span class="pre">type</span><span class="w"> </span><span class="p"><span class="pre">|</span></span><span class="w"> </span><span class="pre">None</span></span><span class="w"> </span><span class="o"><span class="pre">=</span></span><span class="w"> </span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">force</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/registry.html#Registry.register_module"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.registry.Registry.register_module" title="Link to this definition">¶</a></dt>
+<dd><p>Register module class object to registry with the specified modulename.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>module_name</strong> – module name</p></li>
+<li><p><strong>module_cls</strong> – module class object</p></li>
+<li><p><strong>force</strong> – Whether to override an existing class with
+the same name. Default: False.</p></li>
+</ul>
+</dd>
+</dl>
+<p class="rubric">Example</p>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="n">registry</span> <span class="o">=</span> <span class="n">Registry</span><span class="p">()</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="nd">@registry</span><span class="o">.</span><span class="n">register_module</span><span class="p">()</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="k">class</span> <span class="nc">TextFormatter</span><span class="p">:</span>
+<span class="gp">&gt;&gt;&gt; </span>    <span class="k">pass</span>
+</pre></div>
+</div>
+<div class="doctest highlight-default notranslate"><div class="highlight"><pre><span></span><span class="gp">&gt;&gt;&gt; </span><span class="k">class</span> <span class="nc">TextFormatter2</span><span class="p">:</span>
+<span class="gp">&gt;&gt;&gt; </span>    <span class="k">pass</span>
+<span class="gp">&gt;&gt;&gt; </span><span class="n">registry</span><span class="o">.</span><span class="n">register_module</span><span class="p">(</span> <span class="n">module_name</span><span class="o">=</span><span class="s1">&#39;text_formatter2&#39;</span><span class="p">,</span>
+<span class="go">                            module_cls=TextFormatter2)</span>
+</pre></div>
+</div>
+</dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.resource_utils">
+<span id="data-juicer-utils-resource-utils-module"></span><h2>data_juicer.utils.resource_utils module<a class="headerlink" href="#module-data_juicer.utils.resource_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.query_cuda_info">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">query_cuda_info</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">query_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#query_cuda_info"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.query_cuda_info" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.get_cpu_count">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">get_cpu_count</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#get_cpu_count"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.get_cpu_count" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.get_cpu_utilization">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">get_cpu_utilization</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#get_cpu_utilization"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.get_cpu_utilization" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.resource_utils.query_mem_info">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.resource_utils.</span></span><span class="sig-name descname"><span class="pre">query_mem_info</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">query_key</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/resource_utils.html#query_mem_info"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.resource_utils.query_mem_info" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</section>
+<section id="module-data_juicer.utils.unittest_utils">
+<span id="data-juicer-utils-unittest-utils-module"></span><h2>data_juicer.utils.unittest_utils module<a class="headerlink" href="#module-data_juicer.utils.unittest_utils" title="Link to this heading">¶</a></h2>
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.TEST_TAG">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.unittest_utils.</span></span><span class="sig-name descname"><span class="pre">TEST_TAG</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="o"><span class="pre">*</span></span><span class="n"><span class="pre">tags</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#TEST_TAG"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.TEST_TAG" title="Link to this definition">¶</a></dt>
+<dd><p>Tags for test case.
+Currently, <cite>standalone</cite>, <cite>ray</cite> are supported.</p>
+</dd></dl>
+
+<dl class="py function">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.set_clear_model_flag">
+<span class="sig-prename descclassname"><span class="pre">data_juicer.utils.unittest_utils.</span></span><span class="sig-name descname"><span class="pre">set_clear_model_flag</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">flag</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#set_clear_model_flag"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.set_clear_model_flag" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+<dl class="py class">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">data_juicer.utils.unittest_utils.</span></span><span class="sig-name descname"><span class="pre">DataJuicerTestCaseBase</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">methodName</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">'runTest'</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase" title="Link to this definition">¶</a></dt>
+<dd><p>Bases: <code class="xref py py-class docutils literal notranslate"><span class="pre">TestCase</span></code></p>
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">setUpClass</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.setUpClass"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass" title="Link to this definition">¶</a></dt>
+<dd><p>Hook method for setting up class fixture before running tests in the class.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">tearDownClass</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">hf_model_name</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.tearDownClass"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass" title="Link to this definition">¶</a></dt>
+<dd><p>Hook method for deconstructing the class fixture after running all tests in the class.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown">
+<em class="property"><span class="pre">classmethod</span><span class="w"> </span></em><span class="sig-name descname"><span class="pre">tearDown</span></span><span class="sig-paren">(</span><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><span class="pre">None</span></span></span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.tearDown"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown" title="Link to this definition">¶</a></dt>
+<dd><p>Hook method for deconstructing the test fixture after testing it.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset">
+<span class="sig-name descname"><span class="pre">generate_dataset</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">data</span></span></em><span class="sig-paren">)</span> <span class="sig-return"><span class="sig-return-icon">&#x2192;</span> <span class="sig-return-typehint"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><span class="pre">DJDataset</span></a></span></span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.generate_dataset"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset" title="Link to this definition">¶</a></dt>
+<dd><p>Generate dataset for a specific executor.</p>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>type</strong> (<em>str</em><em>, </em><em>optional</em>) – “standalone” or “ray”.</p></li>
+<li><p><strong>&quot;standalone&quot;.</strong> (<em>Defaults to</em>)</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op">
+<span class="sig-name descname"><span class="pre">run_single_op</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="p"><span class="pre">:</span></span><span class="w"> </span><span class="n"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.data.DJDataset" title="data_juicer.core.data.DJDataset"><span class="pre">DJDataset</span></a></span></em>, <em class="sig-param"><span class="n"><span class="pre">op</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">column_names</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.run_single_op"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op" title="Link to this definition">¶</a></dt>
+<dd><p>Run operator in the specific executor.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual">
+<span class="sig-name descname"><span class="pre">assertDatasetEqual</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">first</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">second</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="_modules/data_juicer/utils/unittest_utils.html#DataJuicerTestCaseBase.assertDatasetEqual"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual" title="Link to this definition">¶</a></dt>
+<dd></dd></dl>
+
+</dd></dl>
+
+</section>
+<section id="module-data_juicer.utils">
+<span id="module-contents"></span><h2>Module contents<a class="headerlink" href="#module-data_juicer.utils" title="Link to this heading">¶</a></h2>
+</section>
 </section>
 
 
diff --git a/genindex.html b/genindex.html
index 16315e593..efb0c233f 100644
--- a/genindex.html
+++ b/genindex.html
@@ -11,7 +11,7 @@
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="#" />
@@ -39,16 +39,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -86,6 +86,7 @@ <h1 id="index">Index</h1>
  | <a href="#E"><strong>E</strong></a>
  | <a href="#F"><strong>F</strong></a>
  | <a href="#G"><strong>G</strong></a>
+ | <a href="#H"><strong>H</strong></a>
  | <a href="#I"><strong>I</strong></a>
  | <a href="#J"><strong>J</strong></a>
  | <a href="#K"><strong>K</strong></a>
@@ -101,69 +102,158 @@ <h1 id="index">Index</h1>
  | <a href="#U"><strong>U</strong></a>
  | <a href="#V"><strong>V</strong></a>
  | <a href="#W"><strong>W</strong></a>
+ | <a href="#Z"><strong>Z</strong></a>
  
 </div>
 <h2 id="_">_</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__">__init__() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.__init__">__init__() (data_juicer.analysis.collector.TextTokenDistCollector method)</a>
 
       <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__">(data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.__init__">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__">(data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+</li>
         <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.__init__">(data_juicer.analysis.DiversityAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.__init__">(data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
 </li>
         <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.__init__">(data_juicer.analysis.OverallAnalysis method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.Adapter.__init__">(data_juicer.core.Adapter method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.__init__">(data_juicer.core.adapter.Adapter method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.Analyzer.__init__">(data_juicer.core.Analyzer method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.analyzer.Analyzer.__init__">(data_juicer.core.analyzer.Analyzer method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.__init__">(data_juicer.core.data.NestedDataset method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.__init__">(data_juicer.core.data.NestedDatasetDict method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict.__init__">(data_juicer.core.data.NestedQueryDict method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.Executor.__init__">(data_juicer.core.Executor method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor.__init__">(data_juicer.core.executor.Executor method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.Exporter.__init__">(data_juicer.core.Exporter method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.__init__">(data_juicer.core.exporter.Exporter method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.Monitor.__init__">(data_juicer.core.Monitor method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.__init__">(data_juicer.core.monitor.Monitor method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.__init__">(data_juicer.core.NestedDataset method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset.__init__">(data_juicer.core.ray_data.RayDataset method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.__init__">(data_juicer.core.ray_executor.RayExecutor method)</a>
 </li>
         <li><a href="data_juicer.core.html#data_juicer.core.Tracer.__init__">(data_juicer.core.Tracer method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.__init__">(data_juicer.core.tracer.Tracer method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.__init__">(data_juicer.format.csv_formatter.CsvFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.__init__">(data_juicer.format.CsvFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.__init__">(data_juicer.format.empty_formatter.EmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.__init__">(data_juicer.format.empty_formatter.RayEmptyFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.__init__">(data_juicer.format.EmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.__init__">(data_juicer.format.formatter.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.__init__">(data_juicer.format.formatter.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.__init__">(data_juicer.format.json_formatter.JsonFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter.__init__">(data_juicer.format.JsonFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.__init__">(data_juicer.format.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.__init__">(data_juicer.format.mixture_formatter.MixtureFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.__init__">(data_juicer.format.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.__init__">(data_juicer.format.parquet_formatter.ParquetFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter.__init__">(data_juicer.format.ParquetFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.__init__">(data_juicer.format.RayEmptyFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.__init__">(data_juicer.format.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.__init__">(data_juicer.format.text_formatter.TextFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.__init__">(data_juicer.format.TextFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.__init__">(data_juicer.format.tsv_formatter.TsvFormatter method)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter.__init__">(data_juicer.format.TsvFormatter method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator.__init__">(data_juicer.ops.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__">(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
 </li>
         <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.__init__">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
 </li>
         <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
 </li>
         <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.__init__">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.__init__">(data_juicer.ops.base_op.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.__init__">(data_juicer.ops.base_op.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.__init__">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.__init__">(data_juicer.ops.base_op.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.__init__">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.__init__">(data_juicer.ops.base_op.OP method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.__init__">(data_juicer.ops.base_op.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.__init__">(data_juicer.ops.common.helper_func.UnionFind method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.__init__">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.DocumentDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__">(data_juicer.ops.deduplicator.DocumentMinhashDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__">(data_juicer.ops.deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__">(data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.__init__">(data_juicer.ops.deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__">(data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
 </li>
@@ -172,24 +262,62 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.__init__">(data_juicer.ops.deduplicator.RayImageDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__">(data_juicer.ops.deduplicator.RayVideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__">(data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.__init__">(data_juicer.ops.deduplicator.VideoDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.__init__">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.__init__">(data_juicer.ops.filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__">(data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__">(data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__">(data_juicer.ops.filter.audio_size_filter.AudioSizeFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.__init__">(data_juicer.ops.filter.AudioDurationFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.__init__">(data_juicer.ops.filter.AudioNMFSNRFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.__init__">(data_juicer.ops.filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.__init__">(data_juicer.ops.filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.__init__">(data_juicer.ops.filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.__init__">(data_juicer.ops.filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__">(data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__">(data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__">(data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__">(data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__">(data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__">(data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__">(data_juicer.ops.filter.image_shape_filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__">(data_juicer.ops.filter.image_size_filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__">(data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__">(data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__">(data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.__init__">(data_juicer.ops.filter.ImageAestheticsFilter method)</a>
 </li>
@@ -212,32 +340,80 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.__init__">(data_juicer.ops.filter.ImageTextSimilarityFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.__init__">(data_juicer.ops.filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.__init__">(data_juicer.ops.filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.__init__">(data_juicer.ops.filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.__init__">(data_juicer.ops.filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__">(data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__">(data_juicer.ops.filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.__init__">(data_juicer.ops.filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.__init__">(data_juicer.ops.filter.SpecifiedFieldFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__">(data_juicer.ops.filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.__init__">(data_juicer.ops.filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.__init__">(data_juicer.ops.filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__">(data_juicer.ops.filter.text_action_filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__">(data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.__init__">(data_juicer.ops.filter.TextActionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.__init__">(data_juicer.ops.filter.TextEntityDependencyFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.__init__">(data_juicer.ops.filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.__init__">(data_juicer.ops.filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__">(data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__">(data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__">(data_juicer.ops.filter.video_duration_filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__">(data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__">(data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__">(data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__">(data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__">(data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__">(data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__">(data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__">(data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.__init__">(data_juicer.ops.filter.VideoAestheticsFilter method)</a>
 </li>
@@ -260,24 +436,48 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__">(data_juicer.ops.filter.VideoTaggingFromFramesFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.__init__">(data_juicer.ops.filter.VideoWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.__init__">(data_juicer.ops.filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__">(data_juicer.ops.filter.words_num_filter.WordsNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.__init__">(data_juicer.ops.filter.WordsNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper.__init__">(data_juicer.ops.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__">(data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper method)</a>
 </li>
         <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.__init__">(data_juicer.ops.grouper.KeyValueGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__">(data_juicer.ops.grouper.naive_grouper.NaiveGrouper method)</a>
 </li>
         <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.__init__">(data_juicer.ops.grouper.NaiveGrouper method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.__init__">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.AudioFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.__init__">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__">(data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.__init__">(data_juicer.ops.mapper.ChineseConvertMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__">(data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__">(data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__">(data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__">(data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__">(data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.__init__">(data_juicer.ops.mapper.CleanCopyrightMapper method)</a>
 </li>
@@ -288,8 +488,22 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.__init__">(data_juicer.ops.mapper.CleanIpMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.__init__">(data_juicer.ops.mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__">(data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.__init__">(data_juicer.ops.mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__">(data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__">(data_juicer.ops.mapper.ExtractEntityAttributeMapper method)</a>
 </li>
@@ -302,12 +516,30 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.__init__">(data_juicer.ops.mapper.ExtractNicknameMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.__init__">(data_juicer.ops.mapper.ExtractSupportTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__">(data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.__init__">(data_juicer.ops.mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__">(data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__">(data_juicer.ops.mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__">(data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__">(data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__">(data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__">(data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__">(data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__">(data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.__init__">(data_juicer.ops.mapper.ImageBlurMapper method)</a>
 </li>
@@ -320,22 +552,56 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.__init__">(data_juicer.ops.mapper.ImageFaceBlurMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.__init__">(data_juicer.ops.mapper.ImageTaggingMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__">(data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.__init__">(data_juicer.ops.mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__">(data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.__init__">(data_juicer.ops.mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.__init__">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.__init__">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__">(data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__">(data_juicer.ops.mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__">(data_juicer.ops.mapper.python_file_mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__">(data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.__init__">(data_juicer.ops.mapper.PythonFileMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.__init__">(data_juicer.ops.mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.__init__">(data_juicer.ops.mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__">(data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__">(data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__">(data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__">(data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__">(data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__">(data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__">(data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__">(data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">(data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.__init__">(data_juicer.ops.mapper.RemoveBibliographyMapper method)</a>
 </li>
@@ -354,12 +620,48 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.__init__">(data_juicer.ops.mapper.RemoveTableTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__">(data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__">(data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.__init__">(data_juicer.ops.mapper.ReplaceContentMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__">(data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.__init__">(data_juicer.ops.mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__">(data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.__init__">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__">(data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__">(data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__">(data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__">(data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__">(data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__">(data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__">(data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__">(data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__">(data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__">(data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__">(data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__">(data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__">(data_juicer.ops.mapper.VideoCaptioningFromAudioMapper method)</a>
 </li>
@@ -390,18 +692,50 @@ <h2 id="_">_</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__">(data_juicer.ops.mapper.VideoTaggingFromAudioMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__">(data_juicer.ops.mapper.VideoTaggingFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__">(data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__">(data_juicer.ops.mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.__init__">(data_juicer.ops.op_fusion.FusedFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Selector.__init__">(data_juicer.ops.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__">(data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__">(data_juicer.ops.selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.__init__">(data_juicer.ops.selector.random_selector.RandomSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.__init__">(data_juicer.ops.selector.RandomSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.RangeSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__">(data_juicer.ops.selector.TopkSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.__init__">(data_juicer.utils.auto_install_utils.AutoInstaller method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl.__init__">(data_juicer.utils.cache_utils.DatasetCacheControl method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.__init__">(data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.__init__">(data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.__init__">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.__init__">(data_juicer.utils.fingerprint_utils.Hasher method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader.__init__">(data_juicer.utils.lazy_loader.LazyLoader method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.__init__">(data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel.__init__">(data_juicer.utils.model_utils.APIModel method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.__init__">(data_juicer.utils.registry.Registry method)</a>
 </li>
       </ul></li>
   </ul></td>
@@ -411,48 +745,162 @@ <h2 id="A">A</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.core.html#data_juicer.core.Adapter.adapt_workloads">adapt_workloads() (data_juicer.core.Adapter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.adapt_workloads">(data_juicer.core.adapter.Adapter method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Adapter">Adapter (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter">(class in data_juicer.core.adapter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.add_column">add_column() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.add_column">(data_juicer.core.NestedDataset method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message">add_message() (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.add_parameters">add_parameters() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.add_same_content_to_new_column">add_same_content_to_new_column() (in module data_juicer.core.data)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.add_column">add_column() (data_juicer.core.NestedDataset method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.add_suffix_to_filename">add_suffix_to_filename() (in module data_juicer.utils.file_utils)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message">add_message() (data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.formatter.add_suffixes">add_suffixes() (in module data_juicer.format.formatter)</a>
 </li>
       <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator">Aggregator (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alnum_ratio">alnum_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio">alpha_token_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter">AlphanumericFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter">(class in data_juicer.ops.filter.alphanumeric_filter)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze">analyze() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze">analyze() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
 
       <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.analyze">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze">(data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+</li>
         <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.analyze">(data_juicer.analysis.DiversityAnalysis method)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.analyze">(data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
 </li>
         <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.analyze">(data_juicer.analysis.OverallAnalysis method)</a>
 </li>
       </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Monitor.analyze_resource_util_list">analyze_resource_util_list() (data_juicer.core.Monitor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_resource_util_list">(data_juicer.core.monitor.Monitor static method)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Monitor.analyze_single_resource_util">analyze_single_resource_util() (data_juicer.core.Monitor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.analyze_single_resource_util">(data_juicer.core.monitor.Monitor static method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Adapter.analyze_small_batch">analyze_small_batch() (data_juicer.core.Adapter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.analyze_small_batch">(data_juicer.core.adapter.Adapter method)</a>
 </li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.core.html#data_juicer.core.Analyzer">Analyzer (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.analyzer.Analyzer">(class in data_juicer.core.analyzer)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary">attribute_summary() (data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.APIModel">APIModel (class in data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.aspect_ratios">aspect_ratios (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual">assertDatasetEqual() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.attribute_descriptions">attribute_descriptions (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary">attribute_summary() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.attribute_support_texts">attribute_support_texts (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.attributes">attributes (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.audio">audio (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_duration">audio_duration (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr">audio_nmf_snr (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.audio_sizes">audio_sizes (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter">AudioDurationFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter">(class in data_juicer.ops.filter.audio_duration_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper">AudioFFmpegWrappedMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper">(class in data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter">AudioNMFSNRFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter">(class in data_juicer.ops.filter.audio_nmf_snr_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter">AudioSizeFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter">(class in data_juicer.ops.filter.audio_size_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller">AutoInstaller (class in data_juicer.utils.auto_install_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE">AV_STREAM_THREAD_TYPE (in module data_juicer.utils.mm_utils)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors">avaliable_detectors (data_juicer.ops.mapper.VideoSplitBySceneMapper attribute)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors">avaliable_detectors (data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors">(data_juicer.ops.mapper.VideoSplitBySceneMapper attribute)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter">AverageLineLengthFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter">(class in data_juicer.ops.filter.average_line_length_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.avg_line_length">avg_line_length (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.avg_split_string_list_under_limit">avg_split_string_list_under_limit() (in module data_juicer.utils.common_utils)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -460,14 +908,30 @@ <h2 id="A">A</h2>
 <h2 id="B">B</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor">BaseCompressor (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter">BaseFormatter (class in data_juicer.format.formatter)</a>
+</li>
       <li><a href="data_juicer.core.html#data_juicer.core.Adapter.batch_size_strategy">batch_size_strategy() (data_juicer.core.Adapter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.batch_size_strategy">(data_juicer.core.adapter.Adapter method)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.build_input">build_input() (data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input">build_input() (data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.build_input">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.build_input">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.build_input">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
 </li>
@@ -478,100 +942,294 @@ <h2 id="B">B</h2>
 <h2 id="C">C</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash">calculate_hash() (data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager">CacheCompressManager (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash">calculate_hash() (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayDocumentDeduplicator method)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator method)</a>
 </li>
-        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayImageDeduplicator method)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayDocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayImageDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash">(data_juicer.ops.deduplicator.RayVideoDeduplicator method)</a>
 </li>
       </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.process_utils.calculate_np">calculate_np() (in module data_juicer.utils.process_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.calculate_resized_dimensions">calculate_resized_dimensions() (in module data_juicer.utils.mm_utils)</a>
+</li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper">CalibrateQAMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper">(class in data_juicer.ops.mapper.calibrate_qa_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper">CalibrateQueryMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper">(class in data_juicer.ops.mapper.calibrate_query_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper">CalibrateResponseMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper">(class in data_juicer.ops.mapper.calibrate_response_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api">call_gpt_vision_api() (in module data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_batches_exception">catch_map_batches_exception() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.catch_map_single_exception">catch_map_single_exception() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist">category_to_hist() (data_juicer.analysis.measure.RelatedTTestMeasure static method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio">char_rep_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter">CharacterRepetitionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter">(class in data_juicer.ops.filter.character_repetition_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.check">check() (data_juicer.utils.auto_install_utils.AutoInstaller method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt">check_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.check_model">check_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip">check_ops_to_skip() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager">CheckpointManager (class in data_juicer.utils.ckpt_utils)</a>
 </li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper">ChineseConvertMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper">(class in data_juicer.ops.mapper.chinese_convert_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper">CleanCopyrightMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper">(class in data_juicer.ops.mapper.clean_copyright_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper">CleanEmailMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper">(class in data_juicer.ops.mapper.clean_email_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper">CleanHtmlMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper">(class in data_juicer.ops.mapper.clean_html_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper">CleanIpMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper">(class in data_juicer.ops.mapper.clean_ip_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper">CleanLinksMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper">(class in data_juicer.ops.mapper.clean_links_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.cleanup_cache_files">cleanup_cache_files() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.cleanup_cache_files">(data_juicer.core.NestedDataset method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files">(data_juicer.utils.compress.CacheCompressManager method)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.cleanup_cache_files">cleanup_cache_files() (data_juicer.core.NestedDataset method)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.cleanup_compressed_cache_files">cleanup_compressed_cache_files() (in module data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.close_video">close_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector.collect">collect() (data_juicer.analysis.collector.TextTokenDistCollector method)</a>
 </li>
       <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis">ColumnWiseAnalysis (class in data_juicer.analysis)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis">(class in data_juicer.analysis.column_wise_analysis)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.BaseCompressor.compress">compress() (data_juicer.utils.compress.BaseCompressor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.compress">(data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.compress">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compress">(data_juicer.utils.compress.Compressor class method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor.compress">(data_juicer.utils.compress.GzipCompressor static method)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute">compute() (data_juicer.analysis.DiversityAnalysis method)</a>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor.compress">(data_juicer.utils.compress.Lz4Compressor static method)</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow">compute_flow() (data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor.compress">(data_juicer.utils.compress.ZstdCompressor static method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.compress">(in module data_juicer.utils.compress)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressionOff">CompressionOff (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager">CompressManager (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Compressor">Compressor (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Compressor.compressors">compressors (data_juicer.utils.compress.Compressor attribute)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute">compute() (data_juicer.analysis.diversity_analysis.DiversityAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis.compute">(data_juicer.analysis.DiversityAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow">compute_flow() (data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow">(data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow">(data_juicer.ops.filter.VideoMotionScoreRaftFilter method)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.compute_hash">compute_hash() (data_juicer.ops.Deduplicator method)</a>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.compute_hash">compute_hash() (data_juicer.ops.base_op.Deduplicator method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.compute_hash">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash">(data_juicer.ops.deduplicator.DocumentDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.DocumentMinhashDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash">(data_juicer.ops.deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash">(data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash">(data_juicer.ops.deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash">(data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash">(data_juicer.ops.deduplicator.VideoDeduplicator method)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_batched">compute_stats_batched() (data_juicer.ops.Filter method)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr">compute_nmf_snr() (in module data_juicer.ops.filter.audio_nmf_snr_filter)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_batched">compute_stats_batched() (data_juicer.ops.base_op.Filter method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_batched">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
+</li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched">(data_juicer.ops.filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched">(data_juicer.ops.filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched">(data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched">(data_juicer.ops.filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched">(data_juicer.ops.filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.compute_stats_batched">(data_juicer.ops.filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched">(data_juicer.ops.filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.compute_stats_batched">(data_juicer.ops.filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched">(data_juicer.ops.filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched">(data_juicer.ops.filter.words_num_filter.WordsNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.compute_stats_batched">(data_juicer.ops.filter.WordsNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched">(data_juicer.ops.op_fusion.FusedFilter method)</a>
 </li>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single">compute_stats_single() (data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.compute_stats_single">compute_stats_single() (data_juicer.ops.base_op.Filter method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
+</li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.compute_stats_single">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single">(data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single">(data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single">(data_juicer.ops.filter.audio_size_filter.AudioSizeFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.compute_stats_single">(data_juicer.ops.filter.AudioDurationFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single">(data_juicer.ops.filter.AudioNMFSNRFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.compute_stats_single">(data_juicer.ops.filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single">(data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single">(data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single">(data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single">(data_juicer.ops.filter.image_shape_filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single">(data_juicer.ops.filter.image_size_filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single">(data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.ImageAestheticsFilter method)</a>
 </li>
@@ -592,24 +1250,62 @@ <h2 id="C">C</h2>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.ImageTextSimilarityFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single">(data_juicer.ops.filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single">(data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single">(data_juicer.ops.filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single">(data_juicer.ops.filter.SpecifiedFieldFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single">(data_juicer.ops.filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.compute_stats_single">(data_juicer.ops.filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.compute_stats_single">(data_juicer.ops.filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single">(data_juicer.ops.filter.text_action_filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single">(data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.compute_stats_single">(data_juicer.ops.filter.TextActionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single">(data_juicer.ops.filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.compute_stats_single">(data_juicer.ops.filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single">(data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single">(data_juicer.ops.filter.video_duration_filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single">(data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single">(data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single">(data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single">(data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single">(data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single">(data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single">(data_juicer.ops.filter.VideoAestheticsFilter method)</a>
 </li>
@@ -632,9 +1328,39 @@ <h2 id="C">C</h2>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single">(data_juicer.ops.filter.VideoWatermarkFilter method)</a>
 </li>
       </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.config_backup">config_backup() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.context">context (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.convert_arrow_to_python">convert_arrow_to_python() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.convert_dict_list_to_list_dict">convert_dict_list_to_list_dict() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.convert_list_dict_to_dict_list">convert_list_dict_to_dict_list() (in module data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.convert_to_absolute_paths">convert_to_absolute_paths() (in module data_juicer.core.ray_data)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.copy_data">copy_data() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.create_directory_if_not_exists">create_directory_if_not_exists() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer">create_replacer() (in module data_juicer.ops.mapper.video_split_by_duration_mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer">(in module data_juicer.ops.mapper.video_split_by_key_frame_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure">CrossEntropyMeasure (class in data_juicer.analysis.measure)</a>
+</li>
       <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter">CsvFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter">(class in data_juicer.format.csv_formatter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.html#data_juicer.cuda_device_count">cuda_device_count() (in module data_juicer)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.cut_video_by_seconds">cut_video_by_seconds() (in module data_juicer.utils.mm_utils)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -657,512 +1383,2897 @@ <h2 id="D">D</h2>
 </li>
       </ul></li>
       <li>
-    data_juicer.config
+    data_juicer.analysis.collector
 
       <ul>
-        <li><a href="data_juicer.config.html#module-data_juicer.config">module</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.collector">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.core
+    data_juicer.analysis.column_wise_analysis
 
       <ul>
-        <li><a href="data_juicer.core.html#module-data_juicer.core">module</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.format
+    data_juicer.analysis.diversity_analysis
 
       <ul>
-        <li><a href="data_juicer.format.html#module-data_juicer.format">module</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops
+    data_juicer.analysis.draw
 
       <ul>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops">module</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.draw">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.aggregator
+    data_juicer.analysis.measure
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">module</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.measure">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.common
+    data_juicer.analysis.overall_analysis
 
       <ul>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">module</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.deduplicator
+    data_juicer.config
 
       <ul>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">module</a>
+        <li><a href="data_juicer.config.html#module-data_juicer.config">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.filter
+    data_juicer.config.config
 
       <ul>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">module</a>
+        <li><a href="data_juicer.config.html#module-data_juicer.config.config">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.grouper
+    data_juicer.core
 
       <ul>
-        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">module</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.mapper
+    data_juicer.core.adapter
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">module</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.adapter">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.ops.selector
+    data_juicer.core.analyzer
 
       <ul>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">module</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.analyzer">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.tools
+    data_juicer.core.data
 
       <ul>
-        <li><a href="data_juicer.tools.html#module-data_juicer.tools">module</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.data">module</a>
 </li>
       </ul></li>
       <li>
-    data_juicer.utils
+    data_juicer.core.executor
 
       <ul>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils">module</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.executor">module</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator">Deduplicator (class in data_juicer.ops)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">DEFAULT_ATTR_PATTERN_TEMPLATE (data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">DEFAULT_COMPLETION_DELIMITER (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+      <li>
+    data_juicer.core.exporter
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.exporter">module</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">DEFAULT_CONTINUE_PROMPT (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">DEFAULT_DEMON_PATTERN (data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">DEFAULT_ENTITY_PATTERN (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">DEFAULT_ENTITY_TYPES (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">DEFAULT_EXAMPLE_PROMPT (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">DEFAULT_EXAMPLE_TEMPLATE (data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">DEFAULT_IF_LOOP_PROMPT (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
-</li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">DEFAULT_INPUT_TEMPLATE (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+      <li>
+    data_juicer.core.monitor
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractSupportTextMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.monitor">module</a>
 </li>
       </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">DEFAULT_OUTPUT_PATTERN (data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+      <li>
+    data_juicer.core.ray_data
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.ray_data">module</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">DEFAULT_OUTPUT_PATTERN_TEMPLATE (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+      <li>
+    data_juicer.core.ray_executor
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.ray_executor">module</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">DEFAULT_PROMPT_TEMPLATE (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+      <li>
+    data_juicer.core.tracer
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.tracer">module</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">DEFAULT_QA_PAIR_TEMPLATE (data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+      <li>
+    data_juicer.format
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
-</li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format">module</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">DEFAULT_RECORD_DELIMITER (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+      <li>
+    data_juicer.format.csv_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.csv_formatter">module</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">DEFAULT_REFERENCE_TEMPLATE (data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+      </ul></li>
+      <li>
+    data_juicer.format.empty_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.empty_formatter">module</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">DEFAULT_RELATION_PATTERN (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+      </ul></li>
+      <li>
+    data_juicer.format.formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.formatter">module</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">DEFAULT_SUB_DOC_TEMPLATE (data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+      </ul></li>
+      <li>
+    data_juicer.format.json_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.json_formatter">module</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">DEFAULT_SYSTEM_PROMPT (data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+      </ul></li>
+      <li>
+    data_juicer.format.load
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.load">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.mixture_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.parquet_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.text_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.text_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.format.tsv_formatter
+
+      <ul>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.entity_attribute_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.most_relavant_entities_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.aggregator.nested_aggregator
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.base_op
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.base_op">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.common
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.common.helper_func
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.common.special_characters
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.document_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.document_minhash_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.document_simhash_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.image_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_basic_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_document_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_image_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.ray_video_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.deduplicator.video_deduplicator
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.alphanumeric_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.audio_duration_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.audio_nmf_snr_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.audio_size_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.average_line_length_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.character_repetition_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.flagged_words_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_aesthetics_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_aspect_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_face_count_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_face_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_nsfw_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_pair_similarity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_shape_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_size_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_text_matching_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_text_similarity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.image_watermark_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.language_id_score_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.maximum_line_length_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.perplexity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.phrase_grounding_recall_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.special_characters_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.specified_field_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.specified_numeric_field_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.stopwords_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.suffix_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.text_action_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.text_entity_dependency_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.text_length_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.token_num_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_aesthetics_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_aspect_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_duration_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_frames_text_similarity_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_motion_score_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_motion_score_raft_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_nsfw_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_ocr_area_ratio_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_resolution_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_tagging_from_frames_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.video_watermark_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.word_repetition_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.filter.words_num_filter
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper.key_value_grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.grouper.naive_grouper
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.load
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.load">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.calibrate_qa_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.calibrate_query_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.calibrate_response_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.chinese_convert_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_copyright_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_email_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_html_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_ip_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.clean_links_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.expand_macro_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_entity_attribute_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_entity_relation_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_event_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_keyword_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_nickname_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.extract_support_text_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.fix_unicode_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.generate_qa_from_examples_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.generate_qa_from_text_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_blur_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_captioning_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_diffusion_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_face_blur_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.image_tagging_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.nlpaug_en_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.nlpcda_zh_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.optimize_qa_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.optimize_query_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.optimize_response_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.pair_preference_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.punctuation_normalization_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">module</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li>
+    data_juicer.ops.mapper.python_file_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.python_lambda_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.relation_identity_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_bibliography_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_comments_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_header_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_long_words_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_non_chinese_character_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_repeat_sentences_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_specific_chars_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_table_text_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.replace_content_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.sentence_split_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.text_chunk_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_audio_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_frames_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_summarizer_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_captioning_from_video_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_extract_frames_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_face_blur_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_remove_watermark_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_resize_aspect_ratio_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_resize_resolution_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_split_by_duration_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_split_by_key_frame_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_split_by_scene_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_tagging_from_audio_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.video_tagging_from_frames_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.mapper.whitespace_normalization_mapper
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.op_fusion
+
+      <ul>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.frequency_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.random_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.range_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.ops.selector.topk_specified_field_selector
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.tools
+
+      <ul>
+        <li><a href="data_juicer.tools.html#module-data_juicer.tools">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.asset_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.auto_install_mapping
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.auto_install_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.availability_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.cache_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.ckpt_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.common_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.common_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.compress
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.compress">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.constant
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.constant">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.file_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.file_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.fingerprint_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.lazy_loader
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.logger_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.mm_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.model_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.model_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.process_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.process_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.registry
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.registry">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.resource_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">module</a>
+</li>
+      </ul></li>
+      <li>
+    data_juicer.utils.unittest_utils
+
+      <ul>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">module</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase">DataJuicerTestCaseBase (class in data_juicer.utils.unittest_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.cache_utils.dataset_cache_control">dataset_cache_control() (in module data_juicer.utils.cache_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.cache_utils.DatasetCacheControl">DatasetCacheControl (class in data_juicer.utils.cache_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.decompress">decompress() (data_juicer.utils.compress.CacheCompressManager method)</a>
+
+      <ul>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CompressManager.decompress">(data_juicer.utils.compress.CompressManager method)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.compress.decompress">(in module data_juicer.utils.compress)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator">Deduplicator (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">DEFAULT_ATTR_PATTERN_TEMPLATE (data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">DEFAULT_COMPLETION_DELIMITER (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">DEFAULT_CONTINUE_PROMPT (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">DEFAULT_DEMON_PATTERN (data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">DEFAULT_ENTITY_PATTERN (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">DEFAULT_ENTITY_TYPES (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">DEFAULT_EXAMPLE_PROMPT (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">DEFAULT_EXAMPLE_TEMPLATE (data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">DEFAULT_IF_LOOP_PROMPT (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">DEFAULT_INPUT_TEMPLATE (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">DEFAULT_OUTPUT_PATTERN (data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">DEFAULT_OUTPUT_PATTERN_TEMPLATE (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">DEFAULT_PROMPT_TEMPLATE (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractKeywordMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">DEFAULT_QA_PAIR_TEMPLATE (data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">DEFAULT_RECORD_DELIMITER (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">DEFAULT_REFERENCE_TEMPLATE (data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">DEFAULT_RELATION_PATTERN (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">DEFAULT_SUB_DOC_TEMPLATE (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">DEFAULT_SYSTEM_PROMPT (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.aggregator.NestedAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateQAMapper attribute)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateQueryMapper attribute)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateResponseMapper attribute)</a>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.CalibrateResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractSupportTextMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeQueryMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeResponseMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">DEFAULT_SYSTEM_PROMPT_TEMPLATE (data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">DEFAULT_SYSTEM_TEMPLATE (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">DEFAULT_TUPLE_DELIMITER (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">(data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.detect_faces">detect_faces() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.dict_to_hash">dict_to_hash() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.dispatch">dispatch (data_juicer.utils.fingerprint_utils.Hasher attribute)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.display_config">display_config() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis">DiversityAnalysis (class in data_juicer.analysis)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.DiversityAnalysis">(class in data_juicer.analysis.diversity_analysis)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.dj_configs">dj_configs (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.DJDataset">DJDataset (class in data_juicer.core.data)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator">DocumentDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator">(class in data_juicer.ops.deduplicator.document_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator">DocumentMinhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator">(class in data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator">DocumentSimhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator">(class in data_juicer.ops.deduplicator.document_simhash_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box">draw_box() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.draw.draw_heatmap">draw_heatmap() (in module data_juicer.analysis.draw)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist">draw_hist() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Monitor.draw_resource_util_graph">draw_resource_util_graph() (data_juicer.core.Monitor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.draw_resource_util_graph">(data_juicer.core.monitor.Monitor static method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud">draw_wordcloud() (data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud">(data_juicer.analysis.ColumnWiseAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Monitor.DYNAMIC_FIELDS">DYNAMIC_FIELDS (data_juicer.core.Monitor attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS">(data_juicer.core.monitor.Monitor attribute)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="E">E</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">EMPTY_HASH_VALUE (data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">(data_juicer.ops.deduplicator.RayBasicDeduplicator attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.empty_history">empty_history() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter">EmptyFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter">(class in data_juicer.format.empty_formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity">entity (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity_description">entity_description (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity_name">entity_name (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.entity_type">entity_type (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator">EntityAttributeAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator">(class in data_juicer.ops.aggregator.entity_attribute_aggregator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure">EntropyMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.eoc">eoc (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.event_description">event_description (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Adapter.execute_and_probe">execute_and_probe() (data_juicer.core.Adapter static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.execute_and_probe">(data_juicer.core.adapter.Adapter static method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Executor">Executor (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor">(class in data_juicer.core.executor)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper">ExpandMacroMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper">(class in data_juicer.ops.mapper.expand_macro_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.export">export() (data_juicer.core.Exporter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export">(data_juicer.core.exporter.Exporter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.export_compute_stats">export_compute_stats() (data_juicer.core.Exporter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.export_compute_stats">(data_juicer.core.exporter.Exporter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.export_config">export_config() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.export_config">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter">Exporter (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter">(class in data_juicer.core.exporter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.extra_configs">extra_configs (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Extractor.extract">extract() (data_juicer.utils.compress.Extractor class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_audio_from_video">extract_audio_from_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames">extract_key_frames() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_key_frames_by_seconds">extract_key_frames_by_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_docx">extract_txt_from_docx() (in module data_juicer.format.text_formatter)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.extract_txt_from_pdf">extract_txt_from_pdf() (in module data_juicer.format.text_formatter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly">extract_video_frames_uniformly() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds">extract_video_frames_uniformly_by_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper">ExtractEntityAttributeMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper">(class in data_juicer.ops.mapper.extract_entity_attribute_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper">ExtractEntityRelationMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper">(class in data_juicer.ops.mapper.extract_entity_relation_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper">ExtractEventMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper">(class in data_juicer.ops.mapper.extract_event_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper">ExtractKeywordMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper">(class in data_juicer.ops.mapper.extract_keyword_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper">ExtractNicknameMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper">(class in data_juicer.ops.mapper.extract_nickname_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Extractor">Extractor (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper">ExtractSupportTextMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper">(class in data_juicer.ops.mapper.extract_support_text_mapper)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
+<h2 id="F">F</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_counts">face_counts (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_detections">face_detections (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.face_ratios">face_ratios (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields">Fields (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.FileLock">FileLock (class in data_juicer.utils.compress)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Filter">Filter (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.filter">filter() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.filter">(data_juicer.core.NestedDataset method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.filter_batch">filter_batch() (in module data_juicer.core.ray_data)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.find">find() (data_juicer.ops.common.helper_func.UnionFind method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.find_files_with_suffix">find_files_with_suffix() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases">find_noun_phrases() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj">find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string">find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper">FixUnicodeMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper">(class in data_juicer.ops.mapper.fix_unicode_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio">flagged_words_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter">FlaggedWordFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter">(class in data_juicer.ops.filter.flagged_words_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.flush">flush() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.follow_read">follow_read() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.CacheCompressManager.format_cache_file_name">format_cache_file_name() (data_juicer.utils.compress.CacheCompressManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.free_models">free_models() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector">FrequencySpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector">(class in data_juicer.ops.selector.frequency_specified_field_selector)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.from_dict">from_dict() (data_juicer.core.data.NestedDataset class method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.from_dict">(data_juicer.core.NestedDataset class method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_filter_group">fuse_filter_group() (in module data_juicer.ops.op_fusion)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.fuse_operators">fuse_operators() (in module data_juicer.ops.op_fusion)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter">FusedFilter (class in data_juicer.ops.op_fusion)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="G">G</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset">generate_dataset() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.generate_fingerprint">generate_fingerprint() (in module data_juicer.utils.fingerprint_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper">GenerateQAFromExamplesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper">(class in data_juicer.ops.mapper.generate_qa_from_examples_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper">GenerateQAFromTextMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper">(class in data_juicer.ops.mapper.generate_qa_from_text_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.get">get() (data_juicer.utils.registry.Registry method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.get_abs_path">get_abs_path() (in module data_juicer.core.ray_data)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta.get_access_log">get_access_log() (data_juicer.utils.constant.StatsKeysMeta method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.get_backup_model_link">get_backup_model_link() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_caller_name">get_caller_name() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_count">get_cpu_count() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.get_cpu_utilization">get_cpu_utilization() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_decoded_frames_from_video">get_decoded_frames_from_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.diversity_analysis.get_diversity">get_diversity() (in module data_juicer.analysis.diversity_analysis)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_file_size">get_file_size() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.get_hash_method">get_hash_method() (in module data_juicer.ops.deduplicator.image_deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method">(in module data_juicer.ops.deduplicator.ray_image_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.get_init_configs">get_init_configs() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.get_init_configs">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_key_frame_seconds">get_key_frame_seconds() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list">get_left_process_list() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.get_log_file_path">get_log_file_path() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.process_utils.get_min_cuda_memory">get_min_cuda_memory() (in module data_juicer.utils.process_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.get_model">get_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.get_num_gpus">get_num_gpus() (in module data_juicer.core.ray_data)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader">get_reader() (data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader">(data_juicer.ops.filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.column_wise_analysis.get_row_col">get_row_col() (in module data_juicer.analysis.column_wise_analysis)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document">get_sentences_from_document() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_sentences_from_document">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_special_tokens">get_special_tokens() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">get_split_key_frame() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">(data_juicer.ops.mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks">get_text_chunks() (data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.get_video_duration">get_video_duration() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document">get_words_from_document() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.get_words_from_document">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.getvalue">getvalue() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.GiB">GiB (data_juicer.core.Exporter attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.GiB">(data_juicer.core.exporter.Exporter attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper">Grouper (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.GzipCompressor">GzipCompressor (class in data_juicer.utils.compress)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="H">H</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.hash">hash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash">hash() (data_juicer.utils.fingerprint_utils.Hasher class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_bytes">hash_bytes() (data_juicer.utils.fingerprint_utils.Hasher class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hash_default">hash_default() (data_juicer.utils.fingerprint_utils.Hasher class method)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher">Hasher (class in data_juicer.utils.fingerprint_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys">HashKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.hexdigest">hexdigest() (data_juicer.utils.fingerprint_utils.Hasher method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.HiddenPrints">HiddenPrints (class in data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.hook">hook (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="I">I</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.image">image (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores">image_aesthetics_scores (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_byte_to_base64">image_byte_to_base64() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_height">image_height (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score">image_nsfw_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity">image_pair_similarity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.image_path_to_base64">image_path_to_base64() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_sizes">image_sizes (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.image_tags">image_tags (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score">image_text_matching_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_text_similarity">image_text_similarity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob">image_watermark_prob (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.image_width">image_width (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter">ImageAestheticsFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter">(class in data_juicer.ops.filter.image_aesthetics_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter">ImageAspectRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter">(class in data_juicer.ops.filter.image_aspect_ratio_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper">ImageBlurMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper">(class in data_juicer.ops.mapper.image_blur_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper">ImageCaptioningFromGPT4VMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper">(class in data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper">ImageCaptioningMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper">(class in data_juicer.ops.mapper.image_captioning_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator">ImageDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator">(class in data_juicer.ops.deduplicator.image_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper">ImageDiffusionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper">(class in data_juicer.ops.mapper.image_diffusion_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper">ImageFaceBlurMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper">(class in data_juicer.ops.mapper.image_face_blur_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter">ImageFaceCountFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter">(class in data_juicer.ops.filter.image_face_count_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter">ImageFaceRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter">(class in data_juicer.ops.filter.image_face_ratio_filter)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.imagehash">imagehash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter">ImageNSFWFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter">(class in data_juicer.ops.filter.image_nsfw_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter">ImagePairSimilarityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter">(class in data_juicer.ops.filter.image_pair_similarity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter">ImageShapeFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter">(class in data_juicer.ops.filter.image_shape_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter">ImageSizeFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter">(class in data_juicer.ops.filter.image_size_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper">ImageTaggingMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper">(class in data_juicer.ops.mapper.image_tagging_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter">ImageTextMatchingFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter">(class in data_juicer.ops.filter.image_text_matching_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter">ImageTextSimilarityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter">(class in data_juicer.ops.filter.image_text_similarity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter">ImageWatermarkFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter">(class in data_juicer.ops.filter.image_watermark_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.init_configs">init_configs() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.init_configs">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.init_setup_from_cfg">init_setup_from_cfg() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.insert_texts_after_placeholders">insert_texts_after_placeholders() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Adapter.insight_mining">insight_mining() (data_juicer.core.Adapter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.insight_mining">(data_juicer.core.adapter.Adapter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.auto_install_utils.AutoInstaller.install">install() (data_juicer.utils.auto_install_utils.AutoInstaller method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars">InterVars (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.iou">iou() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.is_absolute_path">is_absolute_path() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.is_batched_op">is_batched_op() (data_juicer.ops.base_op.OP method)</a>
+</li>
+      <li><a href="data_juicer.html#data_juicer.is_cuda_available">is_cuda_available() (in module data_juicer)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.is_duplicate">is_duplicate (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.is_float">is_float() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.is_number">is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.is_string_list">is_string_list() (in module data_juicer.utils.common_utils)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="J">J</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys">JobRequiredKeys (class in data_juicer.utils.constant)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure">JSDivMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter">JsonFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter">(class in data_juicer.format.json_formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.JSONStreamDatasource">JSONStreamDatasource (class in data_juicer.core.ray_data)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="K">K</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper">KeyValueGrouper (class in data_juicer.ops.grouper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper">(class in data_juicer.ops.grouper.key_value_grouper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.keyword">keyword (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.KiB">KiB (data_juicer.core.Exporter attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.KiB">(data_juicer.core.exporter.Exporter attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure">KLDivMeasure (class in data_juicer.analysis.measure)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="L">L</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang">lang (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.lang_score">lang_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter">LanguageIDScoreFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter">(class in data_juicer.ops.filter.language_id_score_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.lazy_loader.LazyLoader">LazyLoader (class in data_juicer.utils.lazy_loader)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction">light_rag_extraction() (data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction">(data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.lines">lines (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.list">list() (data_juicer.utils.registry.Registry method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audio">load_audio() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_audios">load_audios() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt">load_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_data_with_context">load_data_with_context() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.load_dataset">load_dataset() (data_juicer.format.empty_formatter.EmptyFormatter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset">(data_juicer.format.empty_formatter.RayEmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset">(data_juicer.format.EmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.BaseFormatter.load_dataset">(data_juicer.format.formatter.BaseFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter.load_dataset">(data_juicer.format.formatter.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter.load_dataset">(data_juicer.format.formatter.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset">(data_juicer.format.LocalFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset">(data_juicer.format.mixture_formatter.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset">(data_juicer.format.MixtureFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset">(data_juicer.format.RayEmptyFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset">(data_juicer.format.RemoteFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.load_dataset">(data_juicer.format.text_formatter.TextFormatter method)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset">(data_juicer.format.TextFormatter method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.format.html#data_juicer.format.load_formatter">load_formatter() (in module data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.load_formatter">(in module data_juicer.format.formatter)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.load.load_formatter">(in module data_juicer.format.load)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.load_from_disk">load_from_disk() (data_juicer.core.data.NestedDataset static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.load_from_disk">(data_juicer.core.NestedDataset static method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image">load_image() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_image_byte">load_image_byte() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images">load_images() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_images_byte">load_images_byte() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.load_ops">load_ops() (in module data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.load.load_ops">(in module data_juicer.ops.load)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.load_ops_with_stats_meta">load_ops_with_stats_meta() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_video">load_video() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.load_videos">load_videos() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.asset_utils.load_words_asset">load_words_asset() (in module data_juicer.utils.asset_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_audios">loaded_audios (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_images">loaded_images (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.loaded_videos">loaded_videos (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter">LocalFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.LocalFormatter">(class in data_juicer.format.formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.Lz4Compressor">Lz4Compressor (class in data_juicer.utils.compress)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="M">M</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.main_entities">main_entities (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.map">map() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict.map">(data_juicer.core.data.NestedDatasetDict method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.map">(data_juicer.core.NestedDataset method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper">Mapper (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.Adapter.MAX_BATCH_SIZE">MAX_BATCH_SIZE (data_juicer.core.Adapter attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.MAX_BATCH_SIZE">(data_juicer.core.adapter.Adapter attribute)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractEventMapper attribute)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.max_line_length">max_line_length (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractNicknameMapper attribute)</a>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter">MaximumLineLengthFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter">(class in data_juicer.ops.filter.maximum_line_length_filter)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.ExtractSupportTextMapper attribute)</a>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure">Measure (class in data_juicer.analysis.measure)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper attribute)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.measure">measure() (data_juicer.analysis.measure.CrossEntropyMeasure method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.measure">(data_juicer.analysis.measure.EntropyMeasure method)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeQAMapper attribute)</a>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.measure">(data_juicer.analysis.measure.JSDivMeasure method)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeQueryMapper attribute)</a>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.measure">(data_juicer.analysis.measure.KLDivMeasure method)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.OptimizeResponseMapper attribute)</a>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.measure">(data_juicer.analysis.measure.Measure method)</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT">(data_juicer.ops.mapper.PairPreferenceMapper attribute)</a>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.measure">(data_juicer.analysis.measure.RelatedTTestMeasure method)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">DEFAULT_SYSTEM_PROMPT_TEMPLATE (data_juicer.ops.mapper.ExtractEntityAttributeMapper attribute)</a>
+      <li><a href="data_juicer.config.html#data_juicer.config.merge_config">merge_config() (in module data_juicer.config)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE">(data_juicer.ops.mapper.RelationIdentityMapper attribute)</a>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.merge_config">(in module data_juicer.config.config)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE">DEFAULT_SYSTEM_TEMPLATE (data_juicer.ops.aggregator.EntityAttributeAggregator attribute)</a>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline">merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator attribute)</a>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline">(in module data_juicer.ops.common.helper_func)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER">DEFAULT_TUPLE_DELIMITER (data_juicer.ops.mapper.ExtractEntityRelationMapper attribute)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.meta">meta (data_juicer.utils.constant.Fields attribute)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis">DiversityAnalysis (class in data_juicer.analysis)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.JobRequiredKeys.meta_name">meta_name (data_juicer.utils.constant.JobRequiredKeys attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator">DocumentDeduplicator (class in data_juicer.ops.deduplicator)</a>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.MiB">MiB (data_juicer.core.Exporter attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.MiB">(data_juicer.core.exporter.Exporter attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator">DocumentMinhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.minhash">minhash (data_juicer.utils.constant.HashKeys attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator">DocumentSimhashDeduplicator (class in data_juicer.ops.deduplicator)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter">MixtureFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter">(class in data_juicer.format.mixture_formatter)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_box">draw_box() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+      </ul></li>
+      <li>
+    module
+
+      <ul>
+        <li><a href="data_juicer.html#module-data_juicer">data_juicer</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_hist">draw_hist() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">data_juicer.analysis</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Monitor.draw_resource_util_graph">draw_resource_util_graph() (data_juicer.core.Monitor static method)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud">draw_wordcloud() (data_juicer.analysis.ColumnWiseAnalysis method)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Monitor.DYNAMIC_FIELDS">DYNAMIC_FIELDS (data_juicer.core.Monitor attribute)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="E">E</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE">EMPTY_HASH_VALUE (data_juicer.ops.deduplicator.RayBasicDeduplicator attribute)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter">EmptyFormatter (class in data_juicer.format)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator">EntityAttributeAggregator (class in data_juicer.ops.aggregator)</a>
+        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Adapter.execute_and_probe">execute_and_probe() (data_juicer.core.Adapter static method)</a>
+        <li><a href="data_juicer.config.html#module-data_juicer.config">data_juicer.config</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Executor">Executor (class in data_juicer.core)</a>
+        <li><a href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper">ExpandMacroMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core">data_juicer.core</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.export">export() (data_juicer.core.Exporter method)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.adapter">data_juicer.core.adapter</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.export_compute_stats">export_compute_stats() (data_juicer.core.Exporter method)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.analyzer">data_juicer.core.analyzer</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.config.html#data_juicer.config.export_config">export_config() (in module data_juicer.config)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter">Exporter (class in data_juicer.core)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper">ExtractEntityAttributeMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper">ExtractEntityRelationMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper">ExtractEventMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.ray_data">data_juicer.core.ray_data</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper">ExtractKeywordMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.ray_executor">data_juicer.core.ray_executor</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper">ExtractNicknameMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper">ExtractSupportTextMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format">data_juicer.format</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="F">F</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Filter">Filter (class in data_juicer.ops)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.filter">filter() (data_juicer.core.NestedDataset method)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper">FixUnicodeMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter">FlaggedWordFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter</a>
 </li>
-      <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector">FrequencySpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.from_dict">from_dict() (data_juicer.core.NestedDataset class method)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="G">G</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper">GenerateQAFromExamplesMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper">GenerateQAFromTextMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter</a>
 </li>
-      <li><a href="data_juicer.config.html#data_juicer.config.get_init_configs">get_init_configs() (in module data_juicer.config)</a>
+        <li><a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader">get_reader() (data_juicer.ops.filter.VideoOcrAreaRatioFilter method)</a>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops">data_juicer.ops</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document">get_sentences_from_document() (in module data_juicer.ops.common)</a>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">data_juicer.ops.aggregator</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame">get_split_key_frame() (data_juicer.ops.mapper.VideoSplitByKeyFrameMapper method)</a>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator">data_juicer.ops.aggregator.entity_attribute_aggregator</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.get_text_chunks">get_text_chunks() (data_juicer.ops.mapper.TextChunkMapper method)</a>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator">data_juicer.ops.aggregator.most_relavant_entities_aggregator</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document">get_words_from_document() (in module data_juicer.ops.common)</a>
+        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator">data_juicer.ops.aggregator.nested_aggregator</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.GiB">GiB (data_juicer.core.Exporter attribute)</a>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op</a>
 </li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper">Grouper (class in data_juicer.ops)</a>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">data_juicer.ops.common</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="I">I</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter">ImageAestheticsFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter">ImageAspectRatioFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper">ImageBlurMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">data_juicer.ops.deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper">ImageCaptioningFromGPT4VMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper">ImageCaptioningMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator">ImageDeduplicator (class in data_juicer.ops.deduplicator)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper">ImageDiffusionMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper">ImageFaceBlurMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter">ImageFaceCountFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter">ImageFaceRatioFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter">ImageNSFWFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter">ImagePairSimilarityFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter">ImageShapeFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">data_juicer.ops.filter</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter">ImageSizeFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper">ImageTaggingMapper (class in data_juicer.ops.mapper)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter">ImageTextMatchingFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter">ImageTextSimilarityFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter">ImageWatermarkFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter</a>
 </li>
-      <li><a href="data_juicer.config.html#data_juicer.config.init_configs">init_configs() (in module data_juicer.config)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Adapter.insight_mining">insight_mining() (data_juicer.core.Adapter method)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter</a>
 </li>
-      <li><a href="data_juicer.html#data_juicer.is_cuda_available">is_cuda_available() (in module data_juicer)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="J">J</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter">JsonFormatter (class in data_juicer.format)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="K">K</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper">KeyValueGrouper (class in data_juicer.ops.grouper)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.KiB">KiB (data_juicer.core.Exporter attribute)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="L">L</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter">LanguageIDScoreFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction">light_rag_extraction() (data_juicer.ops.mapper.ExtractEntityRelationMapper method)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.load_dataset">load_dataset() (data_juicer.format.EmptyFormatter method)</a>
-
-      <ul>
-        <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter.load_dataset">(data_juicer.format.LocalFormatter method)</a>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">data_juicer.ops.grouper</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper">data_juicer.ops.grouper.key_value_grouper</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper">data_juicer.ops.grouper.naive_grouper</a>
+</li>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">data_juicer.ops.mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.load_dataset">(data_juicer.format.MixtureFormatter method)</a>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.load_dataset">(data_juicer.format.RayEmptyFormatter method)</a>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter.load_dataset">(data_juicer.format.RemoteFormatter method)</a>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper</a>
 </li>
-        <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.load_dataset">(data_juicer.format.TextFormatter method)</a>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper</a>
 </li>
-      </ul></li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.load_formatter">load_formatter() (in module data_juicer.format)</a>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.load_from_disk">load_from_disk() (data_juicer.core.NestedDataset static method)</a>
+        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper</a>
 </li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.load_ops">load_ops() (in module data_juicer.ops)</a>
+        <li><a href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.LocalFormatter">LocalFormatter (class in data_juicer.format)</a>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">data_juicer.ops.selector</a>
 </li>
-  </ul></td>
-</tr></table>
-
-<h2 id="M">M</h2>
-<table style="width: 100%" class="indextable genindextable"><tr>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.map">map() (data_juicer.core.NestedDataset method)</a>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector</a>
 </li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper">Mapper (class in data_juicer.ops)</a>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Adapter.MAX_BATCH_SIZE">MAX_BATCH_SIZE (data_juicer.core.Adapter attribute)</a>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter">MaximumLineLengthFilter (class in data_juicer.ops.filter)</a>
+        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector</a>
 </li>
-      <li><a href="data_juicer.config.html#data_juicer.config.merge_config">merge_config() (in module data_juicer.config)</a>
+        <li><a href="data_juicer.tools.html#module-data_juicer.tools">data_juicer.tools</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline">merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils">data_juicer.utils</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.MiB">MiB (data_juicer.core.Exporter attribute)</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter">MixtureFormatter (class in data_juicer.format)</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">data_juicer.utils.auto_install_mapping</a>
 </li>
-      <li>
-    module
-
-      <ul>
-        <li><a href="data_juicer.html#module-data_juicer">data_juicer</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">data_juicer.utils.auto_install_utils</a>
 </li>
-        <li><a href="data_juicer.analysis.html#module-data_juicer.analysis">data_juicer.analysis</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">data_juicer.utils.availability_utils</a>
 </li>
-        <li><a href="data_juicer.config.html#module-data_juicer.config">data_juicer.config</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils</a>
 </li>
-        <li><a href="data_juicer.core.html#module-data_juicer.core">data_juicer.core</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils</a>
 </li>
-        <li><a href="data_juicer.format.html#module-data_juicer.format">data_juicer.format</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.common_utils">data_juicer.utils.common_utils</a>
 </li>
-        <li><a href="data_juicer.ops.html#module-data_juicer.ops">data_juicer.ops</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.compress">data_juicer.utils.compress</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator">data_juicer.ops.aggregator</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.constant">data_juicer.utils.constant</a>
 </li>
-        <li><a href="data_juicer.ops.common.html#module-data_juicer.ops.common">data_juicer.ops.common</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils</a>
 </li>
-        <li><a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">data_juicer.ops.deduplicator</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils</a>
 </li>
-        <li><a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">data_juicer.ops.filter</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">data_juicer.utils.lazy_loader</a>
 </li>
-        <li><a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper">data_juicer.ops.grouper</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils</a>
 </li>
-        <li><a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">data_juicer.ops.mapper</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">data_juicer.utils.mm_utils</a>
 </li>
-        <li><a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">data_juicer.ops.selector</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils</a>
 </li>
-        <li><a href="data_juicer.tools.html#module-data_juicer.tools">data_juicer.tools</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.process_utils">data_juicer.utils.process_utils</a>
 </li>
-        <li><a href="data_juicer.utils.html#module-data_juicer.utils">data_juicer.utils</a>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">data_juicer.utils.resource_utils</a>
+</li>
+        <li><a href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">data_juicer.utils.unittest_utils</a>
 </li>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.modules">modules (data_juicer.utils.registry.Registry property)</a>
+</li>
       <li><a href="data_juicer.core.html#data_juicer.core.Monitor">Monitor (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor">(class in data_juicer.core.monitor)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Monitor.monitor_all_resources">monitor_all_resources() (data_juicer.core.Monitor method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_all_resources">(data_juicer.core.monitor.Monitor method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Monitor.monitor_current_resources">monitor_current_resources() (data_juicer.core.Monitor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_current_resources">(data_juicer.core.monitor.Monitor static method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Monitor.monitor_func">monitor_func() (data_juicer.core.Monitor static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.monitor.Monitor.monitor_func">(data_juicer.core.monitor.Monitor static method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator">MostRelavantEntitiesAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator">(class in data_juicer.ops.aggregator.most_relavant_entities_aggregator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.multimodal_data_output_dir">multimodal_data_output_dir (data_juicer.utils.constant.Fields attribute)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -1171,39 +4282,123 @@ <h2 id="N">N</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper">NaiveGrouper (class in data_juicer.ops.grouper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper">(class in data_juicer.ops.grouper.naive_grouper)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator">NestedAggregator (class in data_juicer.ops.aggregator)</a>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.CrossEntropyMeasure.name">name (data_juicer.analysis.measure.CrossEntropyMeasure attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.EntropyMeasure.name">(data_juicer.analysis.measure.EntropyMeasure attribute)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset">NestedDataset (class in data_juicer.core)</a>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.JSDivMeasure.name">(data_juicer.analysis.measure.JSDivMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.KLDivMeasure.name">(data_juicer.analysis.measure.KLDivMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.Measure.name">(data_juicer.analysis.measure.Measure attribute)</a>
+</li>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.name">(data_juicer.analysis.measure.RelatedTTestMeasure attribute)</a>
+</li>
+        <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.name">(data_juicer.utils.registry.Registry property)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.namespace_to_arg_list">namespace_to_arg_list() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.nested_access">nested_access() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.nested_obj_factory">nested_obj_factory() (in module data_juicer.core.data)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.nested_query">nested_query() (in module data_juicer.core.data)</a>
 </li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.nested_set">nested_set() (in module data_juicer.utils.common_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator">NestedAggregator (class in data_juicer.ops.aggregator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator">(class in data_juicer.ops.aggregator.nested_aggregator)</a>
+</li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset">NestedDataset (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset">(class in data_juicer.core.data)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDatasetDict">NestedDatasetDict (class in data_juicer.core.data)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedQueryDict">NestedQueryDict (class in data_juicer.core.data)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.nickname">nickname (data_juicer.utils.constant.Fields attribute)</a>
+</li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper">NlpaugEnMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper">(class in data_juicer.ops.mapper.nlpaug_en_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper">NlpcdaZhMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper">(class in data_juicer.ops.mapper.nlpcda_zh_mapper)</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.null_value">null_value (data_juicer.format.EmptyFormatter property)</a>
+      </ul></li>
+      <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.null_value">null_value (data_juicer.format.empty_formatter.EmptyFormatter property)</a>
 
       <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.null_value">(data_juicer.format.empty_formatter.RayEmptyFormatter property)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.null_value">(data_juicer.format.EmptyFormatter property)</a>
+</li>
         <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.null_value">(data_juicer.format.RayEmptyFormatter property)</a>
 </li>
       </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_action">num_action (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges">num_dependency_edges (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_token">num_token (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.num_words">num_words (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
   </ul></td>
 </tr></table>
 
 <h2 id="O">O</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP">OP (class in data_juicer.ops.base_op)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param">optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
+</li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper">OptimizeQAMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper">(class in data_juicer.ops.mapper.optimize_qa_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper">OptimizeQueryMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper">(class in data_juicer.ops.mapper.optimize_query_mapper)</a>
 </li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper">OptimizeResponseMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper">(class in data_juicer.ops.mapper.optimize_response_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis">OverallAnalysis (class in data_juicer.analysis)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis">(class in data_juicer.analysis.overall_analysis)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
@@ -1211,21 +4406,51 @@ <h2 id="P">P</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper">PairPreferenceMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper">(class in data_juicer.ops.mapper.pair_preference_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter">ParquetFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter">(class in data_juicer.format.parquet_formatter)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output">parse_output() (data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output">parse_output() (data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
         <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
 </li>
         <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.parse_output">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output">(data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output">(data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.parse_output">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper.parse_output">(data_juicer.ops.mapper.CalibrateQueryMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper.parse_output">(data_juicer.ops.mapper.CalibrateResponseMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output">(data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output">(data_juicer.ops.mapper.ExtractEntityAttributeMapper method)</a>
 </li>
@@ -1236,90 +4461,236 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper.parse_output">(data_juicer.ops.mapper.ExtractKeywordMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.parse_output">(data_juicer.ops.mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output">(data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output">(data_juicer.ops.mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output">(data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output">(data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.parse_output">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper.parse_output">(data_juicer.ops.mapper.OptimizeQueryMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper.parse_output">(data_juicer.ops.mapper.OptimizeResponseMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.parse_output">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.parse_output">(data_juicer.ops.mapper.RelationIdentityMapper method)</a>
 </li>
       </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.parse_string_to_roi">parse_string_to_roi() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.perplexity">perplexity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter">PerplexityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter">(class in data_juicer.ops.filter.perplexity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall">phrase_grounding_recall (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter">PhraseGroundingRecallFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter">(class in data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.pil_to_opencv">pil_to_opencv() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_api_model">prepare_api_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter">prepare_converter() (in module data_juicer.ops.mapper.chinese_convert_mapper)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_diffusion_model">prepare_diffusion_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_fasttext_model">prepare_fasttext_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_huggingface_model">prepare_huggingface_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_kenlm_model">prepare_kenlm_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_model">prepare_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_nltk_model">prepare_nltk_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_opencv_classifier">prepare_opencv_classifier() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_recognizeAnything_model">prepare_recognizeAnything_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_for_lang">prepare_sentencepiece_for_lang() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_sentencepiece_model">prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)</a>
 </li>
       <li><a href="data_juicer.config.html#data_juicer.config.prepare_side_configs">prepare_side_configs() (in module data_juicer.config)</a>
+
+      <ul>
+        <li><a href="data_juicer.config.html#data_juicer.config.config.prepare_side_configs">(in module data_juicer.config.config)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_simple_aesthetics_model">prepare_simple_aesthetics_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_spacy_model">prepare_spacy_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_video_blip_model">prepare_video_blip_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.model_utils.prepare_vllm_model">prepare_vllm_model() (in module data_juicer.utils.model_utils)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.preprocess_dataset">preprocess_dataset() (in module data_juicer.core.ray_data)</a>
 </li>
       <li><a href="data_juicer.core.html#data_juicer.core.Adapter.probe_small_batch">probe_small_batch() (data_juicer.core.Adapter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.probe_small_batch">(data_juicer.core.adapter.Adapter method)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.process">process() (data_juicer.core.NestedDataset method)</a>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.DJDataset.process">process() (data_juicer.core.data.DJDataset method)</a>
 
       <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.process">(data_juicer.core.data.NestedDataset method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.process">(data_juicer.core.NestedDataset method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset.process">(data_juicer.core.ray_data.RayDataset method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.process">(data_juicer.ops.base_op.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.process">(data_juicer.ops.base_op.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.process">(data_juicer.ops.base_op.OP method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.process">(data_juicer.ops.base_op.Selector method)</a>
+</li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.process">(data_juicer.ops.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process">(data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process">(data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process">(data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator.process">(data_juicer.ops.deduplicator.DocumentDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process">(data_juicer.ops.deduplicator.DocumentMinhashDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process">(data_juicer.ops.deduplicator.DocumentSimhashDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process">(data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator.process">(data_juicer.ops.deduplicator.ImageDeduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process">(data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator.process">(data_juicer.ops.deduplicator.VideoDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Grouper.process">(data_juicer.ops.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process">(data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper method)</a>
 </li>
         <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.KeyValueGrouper.process">(data_juicer.ops.grouper.KeyValueGrouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process">(data_juicer.ops.grouper.naive_grouper.NaiveGrouper method)</a>
 </li>
         <li><a href="data_juicer.ops.grouper.html#data_juicer.ops.grouper.NaiveGrouper.process">(data_juicer.ops.grouper.NaiveGrouper method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Selector.process">(data_juicer.ops.Selector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process">(data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process">(data_juicer.ops.selector.FrequencySpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector.process">(data_juicer.ops.selector.random_selector.RandomSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector.process">(data_juicer.ops.selector.RandomSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process">(data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector.process">(data_juicer.ops.selector.RangeSpecifiedFieldSelector method)</a>
+</li>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process">(data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector method)</a>
 </li>
         <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector.process">(data_juicer.ops.selector.TopkSpecifiedFieldSelector method)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.process_batched">process_batched() (data_juicer.ops.Filter method)</a>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_batched">process_batched() (data_juicer.ops.base_op.Filter method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_batched">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.process_batched">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched">(data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter method)</a>
+</li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter.process_batched">(data_juicer.ops.filter.AlphanumericFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched">(data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter.process_batched">(data_juicer.ops.filter.AverageLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched">(data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter.process_batched">(data_juicer.ops.filter.CharacterRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched">(data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter.process_batched">(data_juicer.ops.filter.FlaggedWordFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched">(data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter.process_batched">(data_juicer.ops.filter.ImageAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched">(data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter.process_batched">(data_juicer.ops.filter.MaximumLineLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched">(data_juicer.ops.filter.perplexity_filter.PerplexityFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter.process_batched">(data_juicer.ops.filter.PerplexityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched">(data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter.process_batched">(data_juicer.ops.filter.SpecialCharactersFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched">(data_juicer.ops.filter.text_length_filter.TextLengthFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter.process_batched">(data_juicer.ops.filter.TextLengthFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched">(data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter.process_batched">(data_juicer.ops.filter.WordRepetitionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched">(data_juicer.ops.filter.words_num_filter.WordsNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter.process_batched">(data_juicer.ops.filter.WordsNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.process_batched">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched">(data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper.process_batched">(data_juicer.ops.mapper.ChineseConvertMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched">(data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched">(data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched">(data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched">(data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched">(data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper.process_batched">(data_juicer.ops.mapper.CleanCopyrightMapper method)</a>
 </li>
@@ -1330,30 +4701,72 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper.process_batched">(data_juicer.ops.mapper.CleanIpMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper.process_batched">(data_juicer.ops.mapper.CleanLinksMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched">(data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper.process_batched">(data_juicer.ops.mapper.ExpandMacroMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched">(data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper.process_batched">(data_juicer.ops.mapper.ExtractEventMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched">(data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper.process_batched">(data_juicer.ops.mapper.FixUnicodeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched">(data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched">(data_juicer.ops.mapper.GenerateQAFromTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched">(data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched">(data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched">(data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched">(data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper.process_batched">(data_juicer.ops.mapper.ImageCaptioningMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper.process_batched">(data_juicer.ops.mapper.ImageDiffusionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched">(data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper.process_batched">(data_juicer.ops.mapper.NlpaugEnMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched">(data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper.process_batched">(data_juicer.ops.mapper.NlpcdaZhMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched">(data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched">(data_juicer.ops.mapper.PunctuationNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched">(data_juicer.ops.mapper.python_file_mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched">(data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_batched">(data_juicer.ops.mapper.PythonFileMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_batched">(data_juicer.ops.mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched">(data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched">(data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched">(data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched">(data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched">(data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched">(data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched">(data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched">(data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">(data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched">(data_juicer.ops.mapper.RemoveBibliographyMapper method)</a>
 </li>
@@ -1372,12 +4785,30 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper.process_batched">(data_juicer.ops.mapper.RemoveTableTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched">(data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched">(data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper.process_batched">(data_juicer.ops.mapper.ReplaceContentMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched">(data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper.process_batched">(data_juicer.ops.mapper.SentenceSplitMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched">(data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.process_batched">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched">(data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched">(data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched">(data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched">(data_juicer.ops.mapper.VideoCaptioningFromAudioMapper method)</a>
 </li>
@@ -1390,30 +4821,76 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched">(data_juicer.ops.mapper.VideoSplitByDurationMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched">(data_juicer.ops.mapper.VideoSplitByKeyFrameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched">(data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched">(data_juicer.ops.mapper.WhitespaceNormalizationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.op_fusion.FusedFilter.process_batched">(data_juicer.ops.op_fusion.FusedFilter method)</a>
 </li>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.process_each_frame">process_each_frame() (in module data_juicer.utils.mm_utils)</a>
+</li>
       <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator.process_single">process_single() (data_juicer.ops.Aggregator method)</a>
 
       <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single">(data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator method)</a>
+</li>
         <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.EntityAttributeAggregator.process_single">(data_juicer.ops.aggregator.EntityAttributeAggregator method)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single">(data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single">(data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.process_single">(data_juicer.ops.base_op.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.process_single">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.process_single">(data_juicer.ops.base_op.Mapper method)</a>
 </li>
-        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.process_single">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single">(data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single">(data_juicer.ops.deduplicator.RayBasicDeduplicator method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Filter.process_single">(data_juicer.ops.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single">(data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single">(data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single">(data_juicer.ops.filter.audio_size_filter.AudioSizeFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter.process_single">(data_juicer.ops.filter.AudioDurationFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter.process_single">(data_juicer.ops.filter.AudioNMFSNRFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter.process_single">(data_juicer.ops.filter.AudioSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single">(data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single">(data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single">(data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single">(data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single">(data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single">(data_juicer.ops.filter.image_shape_filter.ImageShapeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single">(data_juicer.ops.filter.image_size_filter.ImageSizeFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single">(data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single">(data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single">(data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter.process_single">(data_juicer.ops.filter.ImageAestheticsFilter method)</a>
 </li>
@@ -1434,24 +4911,62 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter.process_single">(data_juicer.ops.filter.ImageTextSimilarityFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter.process_single">(data_juicer.ops.filter.ImageWatermarkFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single">(data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter.process_single">(data_juicer.ops.filter.LanguageIDScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single">(data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single">(data_juicer.ops.filter.PhraseGroundingRecallFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single">(data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single">(data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter.process_single">(data_juicer.ops.filter.SpecifiedFieldFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single">(data_juicer.ops.filter.SpecifiedNumericFieldFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single">(data_juicer.ops.filter.stopwords_filter.StopWordsFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter.process_single">(data_juicer.ops.filter.StopWordsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single">(data_juicer.ops.filter.suffix_filter.SuffixFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter.process_single">(data_juicer.ops.filter.SuffixFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single">(data_juicer.ops.filter.text_action_filter.TextActionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single">(data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter.process_single">(data_juicer.ops.filter.TextActionFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter.process_single">(data_juicer.ops.filter.TextEntityDependencyFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single">(data_juicer.ops.filter.token_num_filter.TokenNumFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter.process_single">(data_juicer.ops.filter.TokenNumFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single">(data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single">(data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single">(data_juicer.ops.filter.video_duration_filter.VideoDurationFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single">(data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single">(data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single">(data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single">(data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single">(data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single">(data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single">(data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter.process_single">(data_juicer.ops.filter.VideoAestheticsFilter method)</a>
 </li>
@@ -1474,10 +4989,24 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter.process_single">(data_juicer.ops.filter.VideoWatermarkFilter method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Mapper.process_single">(data_juicer.ops.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.AudioFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single">(data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper.process_single">(data_juicer.ops.mapper.CalibrateQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single">(data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single">(data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single">(data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single">(data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single">(data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single">(data_juicer.ops.mapper.ExtractEntityAttributeMapper method)</a>
 </li>
@@ -1488,24 +5017,60 @@ <h2 id="P">P</h2>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper.process_single">(data_juicer.ops.mapper.ExtractNicknameMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper.process_single">(data_juicer.ops.mapper.ExtractSupportTextMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single">(data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single">(data_juicer.ops.mapper.GenerateQAFromExamplesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single">(data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single">(data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single">(data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper.process_single">(data_juicer.ops.mapper.ImageBlurMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper.process_single">(data_juicer.ops.mapper.ImageFaceBlurMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper.process_single">(data_juicer.ops.mapper.ImageTaggingMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single">(data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper.process_single">(data_juicer.ops.mapper.OptimizeQAMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single">(data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper.process_single">(data_juicer.ops.mapper.PairPreferenceMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single">(data_juicer.ops.mapper.python_file_mapper.PythonFileMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single">(data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper.process_single">(data_juicer.ops.mapper.PythonFileMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper.process_single">(data_juicer.ops.mapper.PythonLambdaMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single">(data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper.process_single">(data_juicer.ops.mapper.RelationIdentityMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single">(data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single">(data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single">(data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single">(data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single">(data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single">(data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single">(data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single">(data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single">(data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper method)</a>
 </li>
         <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper.process_single">(data_juicer.ops.mapper.VideoExtractFramesMapper method)</a>
 </li>
@@ -1527,81 +5092,263 @@ <h2 id="P">P</h2>
 </li>
       </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper">PunctuationNormalizationMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper">(class in data_juicer.ops.mapper.punctuation_normalization_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper">PythonFileMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_file_mapper.PythonFileMapper">(class in data_juicer.ops.mapper.python_file_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper">PythonLambdaMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper">(class in data_juicer.ops.mapper.python_lambda_mapper)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
 <h2 id="Q">Q</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">query_most_relavant_entities() (data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_cuda_info">query_cuda_info() (in module data_juicer.utils.resource_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.resource_utils.query_mem_info">query_mem_info() (in module data_juicer.utils.resource_utils)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">query_most_relavant_entities() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities">(data_juicer.ops.aggregator.MostRelavantEntitiesAggregator method)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
 <h2 id="R">R</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample">random_sample() (data_juicer.format.MixtureFormatter class method)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.mixture_formatter.MixtureFormatter.random_sample">random_sample() (data_juicer.format.mixture_formatter.MixtureFormatter class method)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.MixtureFormatter.random_sample">(data_juicer.format.MixtureFormatter class method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector">RandomSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.random_selector.RandomSelector">(class in data_juicer.ops.selector.random_selector)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector">RangeSpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector">(class in data_juicer.ops.selector.range_specified_field_selector)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator">RayBasicDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator">(class in data_juicer.ops.deduplicator.ray_basic_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset">RayDataset (class in data_juicer.core.ray_data)</a>
 </li>
       <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator">RayDocumentDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator">(class in data_juicer.ops.deduplicator.ray_document_deduplicator)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter">RayEmptyFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter">(class in data_juicer.format.empty_formatter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor">RayExecutor (class in data_juicer.core.ray_executor)</a>
 </li>
       <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator">RayImageDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator">(class in data_juicer.ops.deduplicator.ray_image_deduplicator)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator">RayVideoDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator">(class in data_juicer.ops.deduplicator.ray_video_deduplicator)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.RayDataset.read_json">read_json() (data_juicer.core.ray_data.RayDataset class method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.read_json_stream">read_json_stream() (in module data_juicer.core.ray_data)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.record">record() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary">recursive_summary() (data_juicer.ops.aggregator.nested_aggregator.NestedAggregator method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary">(data_juicer.ops.aggregator.NestedAggregator method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk">recursively_chunk() (data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk">(data_juicer.ops.mapper.TextChunkMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.redirect_sys_output">redirect_sys_output() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column">refine_single_column() (data_juicer.analysis.overall_analysis.OverallAnalysis method)</a>
+
+      <ul>
+        <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column">(data_juicer.analysis.OverallAnalysis method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.refined_words">refined_words (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry.register_module">register_module() (data_juicer.utils.registry.Registry method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.registry.Registry">Registry (class in data_juicer.utils.registry)</a>
 </li>
-      <li><a href="data_juicer.ops.aggregator.html#data_juicer.ops.aggregator.NestedAggregator.recursive_summary">recursive_summary() (data_juicer.ops.aggregator.NestedAggregator method)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure">RelatedTTestMeasure (class in data_juicer.analysis.measure)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper.recursively_chunk">recursively_chunk() (data_juicer.ops.mapper.TextChunkMapper method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation">relation (data_juicer.utils.constant.Fields attribute)</a>
 </li>
-      <li><a href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis.refine_single_column">refine_single_column() (data_juicer.analysis.OverallAnalysis method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation_description">relation_description (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation_keywords">relation_keywords (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relation_strength">relation_strength (data_juicer.utils.constant.Fields attribute)</a>
 </li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper">RelationIdentityMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper">(class in data_juicer.ops.mapper.relation_identity_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.relevant_characters">relevant_characters (data_juicer.utils.constant.Fields attribute)</a>
 </li>
       <li><a href="data_juicer.format.html#data_juicer.format.RemoteFormatter">RemoteFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.formatter.RemoteFormatter">(class in data_juicer.format.formatter)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.remove_columns">remove_columns() (data_juicer.core.NestedDataset method)</a>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.remove_columns">remove_columns() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.remove_columns">(data_juicer.core.NestedDataset method)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper">RemoveBibliographyMapper (class in data_juicer.ops.mapper)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.remove_extra_parameters">remove_extra_parameters() (data_juicer.ops.base_op.OP method)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper">RemoveCommentsMapper (class in data_juicer.ops.mapper)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_non_special_tokens">remove_non_special_tokens() (in module data_juicer.utils.mm_utils)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation">remove_punctuation() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.remove_special_tokens">remove_special_tokens() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper">RemoveBibliographyMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper">(class in data_juicer.ops.mapper.remove_bibliography_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper">RemoveCommentsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper">(class in data_juicer.ops.mapper.remove_comments_mapper)</a>
+</li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper">RemoveHeaderMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper">(class in data_juicer.ops.mapper.remove_header_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper">RemoveLongWordsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper">(class in data_juicer.ops.mapper.remove_long_words_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper">RemoveNonChineseCharacterlMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper">(class in data_juicer.ops.mapper.remove_non_chinese_character_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper">RemoveRepeatSentencesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper">(class in data_juicer.ops.mapper.remove_repeat_sentences_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper">RemoveSpecificCharsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper">(class in data_juicer.ops.mapper.remove_specific_chars_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper">RemoveTableTextMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper">(class in data_juicer.ops.mapper.remove_table_text_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper">RemoveWordsWithIncorrectSubstringsMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper">(class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func">replace_func() (in module data_juicer.ops.mapper.video_split_by_scene_mapper)</a>
 </li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper">ReplaceContentMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper">(class in data_juicer.ops.mapper.replace_content_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale">rescale() (in module data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.monitor.resource_monitor">resource_monitor() (in module data_juicer.core.monitor)</a>
 </li>
       <li><a href="data_juicer.core.html#data_juicer.core.Analyzer.run">run() (data_juicer.core.Analyzer method)</a>
 
       <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.analyzer.Analyzer.run">(data_juicer.core.analyzer.Analyzer method)</a>
+</li>
         <li><a href="data_juicer.core.html#data_juicer.core.Executor.run">(data_juicer.core.Executor method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor.run">(data_juicer.core.executor.Executor method)</a>
+</li>
+        <li><a href="data_juicer.core.html#data_juicer.core.ray_executor.RayExecutor.run">(data_juicer.core.ray_executor.RayExecutor method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Aggregator.run">(data_juicer.ops.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Aggregator.run">(data_juicer.ops.base_op.Aggregator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Deduplicator.run">(data_juicer.ops.base_op.Deduplicator method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Filter.run">(data_juicer.ops.base_op.Filter method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Grouper.run">(data_juicer.ops.base_op.Grouper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Mapper.run">(data_juicer.ops.base_op.Mapper method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.run">(data_juicer.ops.base_op.OP method)</a>
+</li>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector.run">(data_juicer.ops.base_op.Selector method)</a>
 </li>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Deduplicator.run">(data_juicer.ops.Deduplicator method)</a>
 </li>
@@ -1614,6 +5361,12 @@ <h2 id="R">R</h2>
         <li><a href="data_juicer.ops.html#data_juicer.ops.Selector.run">(data_juicer.ops.Selector method)</a>
 </li>
       </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner">run_ner() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op">run_single_op() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase method)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.runtime_np">runtime_np() (data_juicer.ops.base_op.OP method)</a>
+</li>
   </ul></td>
 </tr></table>
 
@@ -1621,64 +5374,208 @@ <h2 id="S">S</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.core.html#data_juicer.core.Executor.sample_data">sample_data() (data_juicer.core.Executor method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.executor.Executor.sample_data">(data_juicer.core.executor.Executor method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.sampled_frames">sampled_frames (data_juicer.utils.constant.InterVars attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt">save_ckpt() (data_juicer.utils.ckpt_utils.CheckpointManager method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select">select() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.select">(data_juicer.core.NestedDataset method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.select_columns">select_columns() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.select_columns">(data_juicer.core.NestedDataset method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.Selector">Selector (class in data_juicer.ops)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.Selector">(class in data_juicer.ops.base_op)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper">SentenceSplitMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper">(class in data_juicer.ops.mapper.sentence_split_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise">separate_signal_noise() (in module data_juicer.ops.filter.audio_nmf_snr_filter)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.set_clear_model_flag">set_clear_model_flag() (in module data_juicer.utils.unittest_utils)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.ray_data.set_dataset_to_absolute_path">set_dataset_to_absolute_path() (in module data_juicer.core.ray_data)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.setup_logger">setup_logger() (in module data_juicer.utils.logger_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model">setup_model() (data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model">(data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model">(data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+</li>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model">(data_juicer.ops.filter.VideoMotionScoreRaftFilter method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.process_utils.setup_mp">setup_mp() (in module data_juicer.utils.process_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass">setUpClass() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase class method)</a>
+</li>
+      <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32">sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)</a>
+</li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word">should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word">(data_juicer.ops.mapper.RemoveLongWordsMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">(data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.simhash">simhash (data_juicer.utils.constant.HashKeys attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.size_to_bytes">size_to_bytes() (in module data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.sort_op_by_types_and_names">sort_op_by_types_and_names() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.source_entity">source_entity (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.source_file">source_file (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.special_char_ratio">special_char_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter">SpecialCharactersFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter">(class in data_juicer.ops.filter.special_characters_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens">SpecialTokens (class in data_juicer.utils.mm_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter">SpecifiedFieldFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter">(class in data_juicer.ops.filter.specified_field_filter)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.select">select() (data_juicer.core.NestedDataset method)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter">SpecifiedNumericFieldFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter">(class in data_juicer.ops.filter.specified_numeric_field_filter)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.select_columns">select_columns() (data_juicer.core.NestedDataset method)</a>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace">split_on_newline_tab_whitespace() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace">(in module data_juicer.ops.common.helper_func)</a>
 </li>
-      <li><a href="data_juicer.ops.html#data_juicer.ops.Selector">Selector (class in data_juicer.ops)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace">split_on_whitespace() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_on_whitespace">(in module data_juicer.ops.common.helper_func)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper">SentenceSplitMapper (class in data_juicer.ops.mapper)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence">split_sentence() (in module data_juicer.ops.mapper.remove_repeat_sentences_mapper)</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter.setup_model">setup_model() (data_juicer.ops.filter.VideoMotionScoreFilter method)</a>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation">split_text_by_punctuation() (in module data_juicer.ops.common)</a>
 
       <ul>
-        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model">(data_juicer.ops.filter.VideoMotionScoreRaftFilter method)</a>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.split_text_by_punctuation">(in module data_juicer.ops.common.helper_func)</a>
 </li>
       </ul></li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word">should_keep_long_word() (data_juicer.ops.mapper.RemoveLongWordsMapper method)</a>
-</li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings">should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper method)</a>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration">split_videos_by_duration() (data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper method)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration">(data_juicer.ops.mapper.VideoSplitByDurationMapper method)</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter">SpecialCharactersFilter (class in data_juicer.ops.filter)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.stats">stats (data_juicer.utils.constant.Fields attribute)</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter">SpecifiedFieldFilter (class in data_juicer.ops.filter)</a>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist">stats_to_hist() (data_juicer.analysis.measure.RelatedTTestMeasure static method)</a>
 </li>
-      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter">SpecifiedNumericFieldFilter (class in data_juicer.ops.filter)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.common_utils.stats_to_number">stats_to_number() (in module data_juicer.utils.common_utils)</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace">split_on_newline_tab_whitespace() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeys">StatsKeys (class in data_juicer.utils.constant)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace">split_on_whitespace() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant">StatsKeysConstant (class in data_juicer.utils.constant)</a>
 </li>
-      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation">split_text_by_punctuation() (in module data_juicer.ops.common)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysMeta">StatsKeysMeta (class in data_juicer.utils.constant)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration">split_videos_by_duration() (data_juicer.ops.mapper.VideoSplitByDurationMapper method)</a>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio">stopwords_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter">StopWordsFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.stopwords_filter.StopWordsFilter">(class in data_juicer.ops.filter.stopwords_filter)</a>
 </li>
-      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY">STRATEGY (data_juicer.ops.mapper.VideoResizeAspectRatioMapper attribute)</a>
+      </ul></li>
+      <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY">STRATEGY (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY">(data_juicer.ops.mapper.VideoResizeAspectRatioMapper attribute)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru">StreamToLoguru (class in data_juicer.utils.logger_utils)</a>
 </li>
       <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.strip">strip() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.strip">(in module data_juicer.ops.common.helper_func)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.suffix">suffix (data_juicer.utils.constant.Fields attribute)</a>
 </li>
-      <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.SUFFIXES">SUFFIXES (data_juicer.format.CsvFormatter attribute)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES">SUFFIXES (data_juicer.format.csv_formatter.CsvFormatter attribute)</a>
 
       <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.CsvFormatter.SUFFIXES">(data_juicer.format.CsvFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES">(data_juicer.format.empty_formatter.EmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES">(data_juicer.format.empty_formatter.RayEmptyFormatter attribute)</a>
+</li>
         <li><a href="data_juicer.format.html#data_juicer.format.EmptyFormatter.SUFFIXES">(data_juicer.format.EmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.json_formatter.JsonFormatter.SUFFIXES">(data_juicer.format.json_formatter.JsonFormatter attribute)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.JsonFormatter.SUFFIXES">(data_juicer.format.JsonFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES">(data_juicer.format.parquet_formatter.ParquetFormatter attribute)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.ParquetFormatter.SUFFIXES">(data_juicer.format.ParquetFormatter attribute)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter.SUFFIXES">(data_juicer.format.RayEmptyFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter.SUFFIXES">(data_juicer.format.text_formatter.TextFormatter attribute)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter.SUFFIXES">(data_juicer.format.TextFormatter attribute)</a>
+</li>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES">(data_juicer.format.tsv_formatter.TsvFormatter attribute)</a>
 </li>
         <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter.SUFFIXES">(data_juicer.format.TsvFormatter attribute)</a>
 </li>
       </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter">SuffixFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.suffix_filter.SuffixFilter">(class in data_juicer.ops.filter.suffix_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.support_text">support_text (data_juicer.utils.constant.Fields attribute)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -1687,50 +5584,164 @@ <h2 id="T">T</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.core.html#data_juicer.core.Adapter.take_batch">take_batch() (data_juicer.core.Adapter static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.adapter.Adapter.take_batch">(data_juicer.core.adapter.Adapter static method)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.target_entity">target_entity (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown">tearDown() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass">tearDownClass() (data_juicer.utils.unittest_utils.DataJuicerTestCaseBase class method)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.unittest_utils.TEST_TAG">TEST_TAG() (in module data_juicer.utils.unittest_utils)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.text_len">text_len (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter">TextActionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_action_filter.TextActionFilter">(class in data_juicer.ops.filter.text_action_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper">TextChunkMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper">(class in data_juicer.ops.mapper.text_chunk_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter">TextEntityDependencyFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter">(class in data_juicer.ops.filter.text_entity_dependency_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.format.html#data_juicer.format.TextFormatter">TextFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.text_formatter.TextFormatter">(class in data_juicer.format.text_formatter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter">TextLengthFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.text_length_filter.TextLengthFilter">(class in data_juicer.ops.filter.text_length_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.analysis.html#data_juicer.analysis.collector.TextTokenDistCollector">TextTokenDistCollector (class in data_juicer.analysis.collector)</a>
 </li>
       <li><a href="data_juicer.core.html#data_juicer.core.Exporter.TiB">TiB (data_juicer.core.Exporter attribute)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.TiB">(data_juicer.core.exporter.Exporter attribute)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.to_json">to_json() (data_juicer.core.Exporter static method)</a>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.timecode_string_to_seconds">timecode_string_to_seconds() (in module data_juicer.utils.mm_utils)</a>
 </li>
-      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.to_jsonl">to_jsonl() (data_juicer.core.Exporter static method)</a>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.to_json">to_json() (data_juicer.core.Exporter static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_json">(data_juicer.core.exporter.Exporter static method)</a>
 </li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.core.html#data_juicer.core.Exporter.to_jsonl">to_jsonl() (data_juicer.core.Exporter static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_jsonl">(data_juicer.core.exporter.Exporter static method)</a>
+</li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Exporter.to_parquet">to_parquet() (data_juicer.core.Exporter static method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.exporter.Exporter.to_parquet">(data_juicer.core.exporter.Exporter static method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter">TokenNumFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.token_num_filter.TokenNumFilter">(class in data_juicer.ops.filter.token_num_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector">TopkSpecifiedFieldSelector (class in data_juicer.ops.selector)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.selector.html#data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector">(class in data_juicer.ops.selector.topk_specified_field_selector)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Tracer.trace_batch_mapper">trace_batch_mapper() (data_juicer.core.Tracer method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_batch_mapper">(data_juicer.core.tracer.Tracer method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Tracer.trace_deduplicator">trace_deduplicator() (data_juicer.core.Tracer method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_deduplicator">(data_juicer.core.tracer.Tracer method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Tracer.trace_filter">trace_filter() (data_juicer.core.Tracer method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_filter">(data_juicer.core.tracer.Tracer method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Tracer.trace_mapper">trace_mapper() (data_juicer.core.Tracer method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer.trace_mapper">(data_juicer.core.tracer.Tracer method)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.core.html#data_juicer.core.Tracer">Tracer (class in data_juicer.core)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.tracer.Tracer">(class in data_juicer.core.tracer)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.file_utils.transfer_filename">transfer_filename() (in module data_juicer.utils.file_utils)</a>
+</li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area">triangle_area() (in module data_juicer.ops.filter.video_ocr_area_ratio_filter)</a>
 </li>
       <li><a href="data_juicer.format.html#data_juicer.format.TsvFormatter">TsvFormatter (class in data_juicer.format)</a>
+
+      <ul>
+        <li><a href="data_juicer.format.html#data_juicer.format.tsv_formatter.TsvFormatter">(class in data_juicer.format.tsv_formatter)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
 <h2 id="U">U</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.update_args">update_args() (data_juicer.core.NestedDataset method)</a>
+      <li><a href="data_juicer.format.html#data_juicer.format.formatter.unify_format">unify_format() (in module data_juicer.format.formatter)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind.union">union() (data_juicer.ops.common.helper_func.UnionFind method)</a>
+</li>
+      <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.UnionFind">UnionFind (class in data_juicer.ops.common.helper_func)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.Hasher.update">update() (data_juicer.utils.fingerprint_utils.Hasher method)</a>
+</li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.NestedDataset.update_args">update_args() (data_juicer.core.data.NestedDataset method)</a>
+
+      <ul>
+        <li><a href="data_juicer.core.html#data_juicer.core.NestedDataset.update_args">(data_juicer.core.NestedDataset method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.update_ds_cache_dir_and_related_vars">update_ds_cache_dir_and_related_vars() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.fingerprint_utils.update_fingerprint">update_fingerprint() (in module data_juicer.utils.fingerprint_utils)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.update_op_attr">update_op_attr() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.config.html#data_juicer.config.config.update_op_process">update_op_process() (in module data_juicer.config.config)</a>
+</li>
+      <li><a href="data_juicer.ops.html#data_juicer.ops.base_op.OP.use_cuda">use_cuda() (data_juicer.ops.base_op.OP method)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -1738,62 +5749,204 @@ <h2 id="U">U</h2>
 <h2 id="V">V</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.mm_utils.SpecialTokens.video">video (data_juicer.utils.mm_utils.SpecialTokens attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score">video_aesthetic_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios">video_aspect_ratios (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.video_audio_tags">video_audio_tags (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_duration">video_duration (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.video_frame_tags">video_frame_tags (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.Fields.video_frames">video_frames (data_juicer.utils.constant.Fields attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score">video_frames_aesthetics_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity">video_frames_text_similarity (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_height">video_height (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_motion_score">video_motion_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score">video_nsfw_score (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio">video_ocr_area_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob">video_watermark_prob (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.video_width">video_width (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
+</li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter">VideoAestheticsFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter">(class in data_juicer.ops.filter.video_aesthetics_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter">VideoAspectRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter">(class in data_juicer.ops.filter.video_aspect_ratio_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper">VideoCaptioningFromAudioMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper">(class in data_juicer.ops.mapper.video_captioning_from_audio_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper">VideoCaptioningFromFramesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper">(class in data_juicer.ops.mapper.video_captioning_from_frames_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper">VideoCaptioningFromSummarizerMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper">(class in data_juicer.ops.mapper.video_captioning_from_summarizer_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper">VideoCaptioningFromVideoMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper">(class in data_juicer.ops.mapper.video_captioning_from_video_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoCapture">VideoCapture() (in module data_juicer.ops.filter.video_motion_score_filter)</a>
 </li>
       <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator">VideoDeduplicator (class in data_juicer.ops.deduplicator)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator">(class in data_juicer.ops.deduplicator.video_deduplicator)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter">VideoDurationFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_duration_filter.VideoDurationFilter">(class in data_juicer.ops.filter.video_duration_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper">VideoExtractFramesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper">(class in data_juicer.ops.mapper.video_extract_frames_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper">VideoFaceBlurMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper">(class in data_juicer.ops.mapper.video_face_blur_mapper)</a>
 </li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper">VideoFFmpegWrappedMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper">(class in data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter">VideoFramesTextSimilarityFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter">(class in data_juicer.ops.filter.video_frames_text_similarity_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.HashKeys.videohash">videohash (data_juicer.utils.constant.HashKeys attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter">VideoMotionScoreFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter">(class in data_juicer.ops.filter.video_motion_score_filter)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter">VideoMotionScoreRaftFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter">(class in data_juicer.ops.filter.video_motion_score_raft_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter">VideoNSFWFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter">(class in data_juicer.ops.filter.video_nsfw_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter">VideoOcrAreaRatioFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter">(class in data_juicer.ops.filter.video_ocr_area_ratio_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper">VideoRemoveWatermarkMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper">(class in data_juicer.ops.mapper.video_remove_watermark_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper">VideoResizeAspectRatioMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper">(class in data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper">VideoResizeResolutionMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper">(class in data_juicer.ops.mapper.video_resize_resolution_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter">VideoResolutionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter">(class in data_juicer.ops.filter.video_resolution_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper">VideoSplitByDurationMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper">(class in data_juicer.ops.mapper.video_split_by_duration_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper">VideoSplitByKeyFrameMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper">(class in data_juicer.ops.mapper.video_split_by_key_frame_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper">VideoSplitBySceneMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper">(class in data_juicer.ops.mapper.video_split_by_scene_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper">VideoTaggingFromAudioMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper">(class in data_juicer.ops.mapper.video_tagging_from_audio_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter">VideoTaggingFromFramesFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter">(class in data_juicer.ops.filter.video_tagging_from_frames_filter)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper">VideoTaggingFromFramesMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper">(class in data_juicer.ops.mapper.video_tagging_from_frames_mapper)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter">VideoWatermarkFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter">(class in data_juicer.ops.filter.video_watermark_filter)</a>
 </li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
@@ -1801,16 +5954,52 @@ <h2 id="W">W</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper">WhitespaceNormalizationMapper (class in data_juicer.ops.mapper)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper">(class in data_juicer.ops.mapper.whitespace_normalization_mapper)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio">word_rep_ratio (data_juicer.utils.constant.StatsKeysConstant attribute)</a>
 </li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter">WordRepetitionFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter">(class in data_juicer.ops.filter.word_repetition_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.constant.InterVars.words">words (data_juicer.utils.constant.InterVars attribute)</a>
 </li>
-  </ul></td>
-  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation">words_augmentation() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_augmentation">(in module data_juicer.ops.common.helper_func)</a>
 </li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement">words_refinement() (in module data_juicer.ops.common)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.common.html#data_juicer.ops.common.helper_func.words_refinement">(in module data_juicer.ops.common.helper_func)</a>
 </li>
+      </ul></li>
       <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter">WordsNumFilter (class in data_juicer.ops.filter)</a>
+
+      <ul>
+        <li><a href="data_juicer.ops.filter.html#data_juicer.ops.filter.words_num_filter.WordsNumFilter">(class in data_juicer.ops.filter.words_num_filter)</a>
+</li>
+      </ul></li>
+      <li><a href="data_juicer.core.html#data_juicer.core.data.wrap_func_with_nested_access">wrap_func_with_nested_access() (in module data_juicer.core.data)</a>
+</li>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.logger_utils.StreamToLoguru.write">write() (data_juicer.utils.logger_utils.StreamToLoguru method)</a>
+</li>
+  </ul></td>
+</tr></table>
+
+<h2 id="Z">Z</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="data_juicer.utils.html#data_juicer.utils.compress.ZstdCompressor">ZstdCompressor (class in data_juicer.utils.compress)</a>
 </li>
   </ul></td>
 </tr></table>
diff --git a/index.html b/index.html
index 579a8b33e..25515011e 100644
--- a/index.html
+++ b/index.html
@@ -12,12 +12,12 @@
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
-    <link rel="next" title="data_juicer.core" href="data_juicer.core.html" /> 
+    <link rel="next" title="data_juicer.core package" href="data_juicer.core.html" /> 
 </head>
 
 <body class="wy-body-for-nav"> 
@@ -41,16 +41,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -85,197 +85,206 @@ <h2>Tutorial<a class="headerlink" href="#tutorial" title="Link to this heading">
 <div class="toctree-wrapper compound">
 <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Adapter"><code class="docutils literal notranslate"><span class="pre">Adapter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Analyzer"><code class="docutils literal notranslate"><span class="pre">Analyzer</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.NestedDataset"><code class="docutils literal notranslate"><span class="pre">NestedDataset</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Executor"><code class="docutils literal notranslate"><span class="pre">Executor</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Exporter"><code class="docutils literal notranslate"><span class="pre">Exporter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Monitor"><code class="docutils literal notranslate"><span class="pre">Monitor</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#data_juicer.core.Tracer"><code class="docutils literal notranslate"><span class="pre">Tracer</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.adapter">data_juicer.core.adapter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyzer">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_data">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_executor">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.load_ops"><code class="docutils literal notranslate"><span class="pre">load_ops()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Filter"><code class="docutils literal notranslate"><span class="pre">Filter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Mapper"><code class="docutils literal notranslate"><span class="pre">Mapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Deduplicator"><code class="docutils literal notranslate"><span class="pre">Deduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Selector"><code class="docutils literal notranslate"><span class="pre">Selector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Grouper"><code class="docutils literal notranslate"><span class="pre">Grouper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#data_juicer.ops.Aggregator"><code class="docutils literal notranslate"><span class="pre">Aggregator</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AlphanumericFilter"><code class="docutils literal notranslate"><span class="pre">AlphanumericFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioDurationFilter"><code class="docutils literal notranslate"><span class="pre">AudioDurationFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioNMFSNRFilter"><code class="docutils literal notranslate"><span class="pre">AudioNMFSNRFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AudioSizeFilter"><code class="docutils literal notranslate"><span class="pre">AudioSizeFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.AverageLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">AverageLineLengthFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.CharacterRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">CharacterRepetitionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.FlaggedWordFilter"><code class="docutils literal notranslate"><span class="pre">FlaggedWordFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">ImageAestheticsFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageAspectRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceCountFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceCountFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageFaceRatioFilter"><code class="docutils literal notranslate"><span class="pre">ImageFaceRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageNSFWFilter"><code class="docutils literal notranslate"><span class="pre">ImageNSFWFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImagePairSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImagePairSimilarityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageShapeFilter"><code class="docutils literal notranslate"><span class="pre">ImageShapeFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageSizeFilter"><code class="docutils literal notranslate"><span class="pre">ImageSizeFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextMatchingFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextMatchingFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">ImageTextSimilarityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.ImageWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">ImageWatermarkFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.LanguageIDScoreFilter"><code class="docutils literal notranslate"><span class="pre">LanguageIDScoreFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.MaximumLineLengthFilter"><code class="docutils literal notranslate"><span class="pre">MaximumLineLengthFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PerplexityFilter"><code class="docutils literal notranslate"><span class="pre">PerplexityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.PhraseGroundingRecallFilter"><code class="docutils literal notranslate"><span class="pre">PhraseGroundingRecallFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecialCharactersFilter"><code class="docutils literal notranslate"><span class="pre">SpecialCharactersFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedFieldFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SpecifiedNumericFieldFilter"><code class="docutils literal notranslate"><span class="pre">SpecifiedNumericFieldFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.StopWordsFilter"><code class="docutils literal notranslate"><span class="pre">StopWordsFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.SuffixFilter"><code class="docutils literal notranslate"><span class="pre">SuffixFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextActionFilter"><code class="docutils literal notranslate"><span class="pre">TextActionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextEntityDependencyFilter"><code class="docutils literal notranslate"><span class="pre">TextEntityDependencyFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TextLengthFilter"><code class="docutils literal notranslate"><span class="pre">TextLengthFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.TokenNumFilter"><code class="docutils literal notranslate"><span class="pre">TokenNumFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAestheticsFilter"><code class="docutils literal notranslate"><span class="pre">VideoAestheticsFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoAspectRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoAspectRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoDurationFilter"><code class="docutils literal notranslate"><span class="pre">VideoDurationFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoFramesTextSimilarityFilter"><code class="docutils literal notranslate"><span class="pre">VideoFramesTextSimilarityFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoMotionScoreRaftFilter"><code class="docutils literal notranslate"><span class="pre">VideoMotionScoreRaftFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoNSFWFilter"><code class="docutils literal notranslate"><span class="pre">VideoNSFWFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoOcrAreaRatioFilter"><code class="docutils literal notranslate"><span class="pre">VideoOcrAreaRatioFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoResolutionFilter"><code class="docutils literal notranslate"><span class="pre">VideoResolutionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoTaggingFromFramesFilter"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.VideoWatermarkFilter"><code class="docutils literal notranslate"><span class="pre">VideoWatermarkFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordRepetitionFilter"><code class="docutils literal notranslate"><span class="pre">WordRepetitionFilter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#data_juicer.ops.filter.WordsNumFilter"><code class="docutils literal notranslate"><span class="pre">WordsNumFilter</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter">data_juicer.ops.filter.alphanumeric_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter">data_juicer.ops.filter.audio_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter">data_juicer.ops.filter.audio_nmf_snr_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter">data_juicer.ops.filter.audio_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter">data_juicer.ops.filter.average_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter">data_juicer.ops.filter.character_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter">data_juicer.ops.filter.flagged_words_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter">data_juicer.ops.filter.image_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter">data_juicer.ops.filter.image_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter">data_juicer.ops.filter.image_face_count_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter">data_juicer.ops.filter.image_face_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter">data_juicer.ops.filter.image_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter">data_juicer.ops.filter.image_pair_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter">data_juicer.ops.filter.image_shape_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter">data_juicer.ops.filter.image_size_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter">data_juicer.ops.filter.image_text_matching_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter">data_juicer.ops.filter.image_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter">data_juicer.ops.filter.image_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter">data_juicer.ops.filter.language_id_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter">data_juicer.ops.filter.maximum_line_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter">data_juicer.ops.filter.perplexity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter">data_juicer.ops.filter.phrase_grounding_recall_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter">data_juicer.ops.filter.special_characters_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter">data_juicer.ops.filter.specified_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter">data_juicer.ops.filter.specified_numeric_field_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter">data_juicer.ops.filter.stopwords_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter">data_juicer.ops.filter.suffix_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter">data_juicer.ops.filter.text_action_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter">data_juicer.ops.filter.text_entity_dependency_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter">data_juicer.ops.filter.text_length_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter">data_juicer.ops.filter.token_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter">data_juicer.ops.filter.video_aesthetics_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter">data_juicer.ops.filter.video_aspect_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter">data_juicer.ops.filter.video_duration_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter">data_juicer.ops.filter.video_frames_text_similarity_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter">data_juicer.ops.filter.video_motion_score_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter">data_juicer.ops.filter.video_motion_score_raft_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter">data_juicer.ops.filter.video_nsfw_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter">data_juicer.ops.filter.video_ocr_area_ratio_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter">data_juicer.ops.filter.video_resolution_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter">data_juicer.ops.filter.video_tagging_from_frames_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter">data_juicer.ops.filter.video_watermark_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter">data_juicer.ops.filter.word_repetition_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter">data_juicer.ops.filter.words_num_filter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.filter.html#module-data_juicer.ops.filter">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.AudioFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">AudioFFmpegWrappedMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQAMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQAMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateQueryMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateQueryMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CalibrateResponseMapper"><code class="docutils literal notranslate"><span class="pre">CalibrateResponseMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ChineseConvertMapper"><code class="docutils literal notranslate"><span class="pre">ChineseConvertMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanCopyrightMapper"><code class="docutils literal notranslate"><span class="pre">CleanCopyrightMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanEmailMapper"><code class="docutils literal notranslate"><span class="pre">CleanEmailMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanHtmlMapper"><code class="docutils literal notranslate"><span class="pre">CleanHtmlMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanIpMapper"><code class="docutils literal notranslate"><span class="pre">CleanIpMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.CleanLinksMapper"><code class="docutils literal notranslate"><span class="pre">CleanLinksMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExpandMacroMapper"><code class="docutils literal notranslate"><span class="pre">ExpandMacroMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityAttributeMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityAttributeMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEntityRelationMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEntityRelationMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractEventMapper"><code class="docutils literal notranslate"><span class="pre">ExtractEventMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractKeywordMapper"><code class="docutils literal notranslate"><span class="pre">ExtractKeywordMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractNicknameMapper"><code class="docutils literal notranslate"><span class="pre">ExtractNicknameMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ExtractSupportTextMapper"><code class="docutils literal notranslate"><span class="pre">ExtractSupportTextMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.FixUnicodeMapper"><code class="docutils literal notranslate"><span class="pre">FixUnicodeMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromExamplesMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromExamplesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.GenerateQAFromTextMapper"><code class="docutils literal notranslate"><span class="pre">GenerateQAFromTextMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageBlurMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningFromGPT4VMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageCaptioningMapper"><code class="docutils literal notranslate"><span class="pre">ImageCaptioningMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageDiffusionMapper"><code class="docutils literal notranslate"><span class="pre">ImageDiffusionMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">ImageFaceBlurMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ImageTaggingMapper"><code class="docutils literal notranslate"><span class="pre">ImageTaggingMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpaugEnMapper"><code class="docutils literal notranslate"><span class="pre">NlpaugEnMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.NlpcdaZhMapper"><code class="docutils literal notranslate"><span class="pre">NlpcdaZhMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQAMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQAMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeQueryMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeQueryMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.OptimizeResponseMapper"><code class="docutils literal notranslate"><span class="pre">OptimizeResponseMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PairPreferenceMapper"><code class="docutils literal notranslate"><span class="pre">PairPreferenceMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PunctuationNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">PunctuationNormalizationMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonFileMapper"><code class="docutils literal notranslate"><span class="pre">PythonFileMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.PythonLambdaMapper"><code class="docutils literal notranslate"><span class="pre">PythonLambdaMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RelationIdentityMapper"><code class="docutils literal notranslate"><span class="pre">RelationIdentityMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveBibliographyMapper"><code class="docutils literal notranslate"><span class="pre">RemoveBibliographyMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveCommentsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveCommentsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveHeaderMapper"><code class="docutils literal notranslate"><span class="pre">RemoveHeaderMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveLongWordsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveLongWordsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper"><code class="docutils literal notranslate"><span class="pre">RemoveNonChineseCharacterlMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveRepeatSentencesMapper"><code class="docutils literal notranslate"><span class="pre">RemoveRepeatSentencesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveSpecificCharsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveSpecificCharsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveTableTextMapper"><code class="docutils literal notranslate"><span class="pre">RemoveTableTextMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper"><code class="docutils literal notranslate"><span class="pre">RemoveWordsWithIncorrectSubstringsMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.ReplaceContentMapper"><code class="docutils literal notranslate"><span class="pre">ReplaceContentMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.SentenceSplitMapper"><code class="docutils literal notranslate"><span class="pre">SentenceSplitMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.TextChunkMapper"><code class="docutils literal notranslate"><span class="pre">TextChunkMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromAudioMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromFramesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromSummarizerMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoCaptioningFromVideoMapper"><code class="docutils literal notranslate"><span class="pre">VideoCaptioningFromVideoMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoExtractFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoExtractFramesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFFmpegWrappedMapper"><code class="docutils literal notranslate"><span class="pre">VideoFFmpegWrappedMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoFaceBlurMapper"><code class="docutils literal notranslate"><span class="pre">VideoFaceBlurMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoRemoveWatermarkMapper"><code class="docutils literal notranslate"><span class="pre">VideoRemoveWatermarkMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeAspectRatioMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeAspectRatioMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoResizeResolutionMapper"><code class="docutils literal notranslate"><span class="pre">VideoResizeResolutionMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByDurationMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByDurationMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitByKeyFrameMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitByKeyFrameMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoSplitBySceneMapper"><code class="docutils literal notranslate"><span class="pre">VideoSplitBySceneMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromAudioMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromAudioMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.VideoTaggingFromFramesMapper"><code class="docutils literal notranslate"><span class="pre">VideoTaggingFromFramesMapper</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#data_juicer.ops.mapper.WhitespaceNormalizationMapper"><code class="docutils literal notranslate"><span class="pre">WhitespaceNormalizationMapper</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper">data_juicer.ops.mapper.calibrate_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper">data_juicer.ops.mapper.calibrate_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper">data_juicer.ops.mapper.calibrate_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper">data_juicer.ops.mapper.chinese_convert_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper">data_juicer.ops.mapper.clean_copyright_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper">data_juicer.ops.mapper.clean_email_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper">data_juicer.ops.mapper.clean_html_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper">data_juicer.ops.mapper.clean_ip_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper">data_juicer.ops.mapper.clean_links_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper">data_juicer.ops.mapper.expand_macro_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper">data_juicer.ops.mapper.extract_entity_attribute_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper">data_juicer.ops.mapper.extract_entity_relation_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper">data_juicer.ops.mapper.extract_event_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper">data_juicer.ops.mapper.extract_keyword_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper">data_juicer.ops.mapper.extract_nickname_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper">data_juicer.ops.mapper.extract_support_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper">data_juicer.ops.mapper.fix_unicode_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper">data_juicer.ops.mapper.generate_qa_from_examples_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper">data_juicer.ops.mapper.generate_qa_from_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper">data_juicer.ops.mapper.image_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper">data_juicer.ops.mapper.image_captioning_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper">data_juicer.ops.mapper.image_diffusion_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper">data_juicer.ops.mapper.image_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper">data_juicer.ops.mapper.image_tagging_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper">data_juicer.ops.mapper.nlpaug_en_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper">data_juicer.ops.mapper.nlpcda_zh_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper">data_juicer.ops.mapper.optimize_qa_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper">data_juicer.ops.mapper.optimize_query_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper">data_juicer.ops.mapper.optimize_response_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper">data_juicer.ops.mapper.pair_preference_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper">data_juicer.ops.mapper.punctuation_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper">data_juicer.ops.mapper.python_file_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper">data_juicer.ops.mapper.python_lambda_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper">data_juicer.ops.mapper.relation_identity_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper">data_juicer.ops.mapper.remove_bibliography_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper">data_juicer.ops.mapper.remove_comments_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper">data_juicer.ops.mapper.remove_header_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper">data_juicer.ops.mapper.remove_long_words_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper">data_juicer.ops.mapper.remove_non_chinese_character_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper">data_juicer.ops.mapper.remove_repeat_sentences_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper">data_juicer.ops.mapper.remove_specific_chars_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper">data_juicer.ops.mapper.remove_table_text_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper">data_juicer.ops.mapper.replace_content_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper">data_juicer.ops.mapper.sentence_split_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper">data_juicer.ops.mapper.text_chunk_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper">data_juicer.ops.mapper.video_captioning_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper">data_juicer.ops.mapper.video_captioning_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper">data_juicer.ops.mapper.video_captioning_from_video_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper">data_juicer.ops.mapper.video_extract_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper">data_juicer.ops.mapper.video_face_blur_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper">data_juicer.ops.mapper.video_remove_watermark_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper">data_juicer.ops.mapper.video_resize_resolution_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper">data_juicer.ops.mapper.video_split_by_duration_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper">data_juicer.ops.mapper.video_split_by_key_frame_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper">data_juicer.ops.mapper.video_split_by_scene_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper">data_juicer.ops.mapper.video_tagging_from_audio_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper">data_juicer.ops.mapper.video_tagging_from_frames_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper">data_juicer.ops.mapper.whitespace_normalization_mapper module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentMinhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentMinhashDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.DocumentSimhashDeduplicator"><code class="docutils literal notranslate"><span class="pre">DocumentSimhashDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.ImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">ImageDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayBasicDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayBasicDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayDocumentDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayDocumentDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayImageDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayImageDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.RayVideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">RayVideoDeduplicator</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#data_juicer.ops.deduplicator.VideoDeduplicator"><code class="docutils literal notranslate"><span class="pre">VideoDeduplicator</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator">data_juicer.ops.deduplicator.document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator">data_juicer.ops.deduplicator.document_minhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator">data_juicer.ops.deduplicator.document_simhash_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator">data_juicer.ops.deduplicator.image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator">data_juicer.ops.deduplicator.ray_basic_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator">data_juicer.ops.deduplicator.ray_document_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator">data_juicer.ops.deduplicator.ray_image_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator">data_juicer.ops.deduplicator.ray_video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator">data_juicer.ops.deduplicator.video_deduplicator module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.FrequencySpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">FrequencySpecifiedFieldSelector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RandomSelector"><code class="docutils literal notranslate"><span class="pre">RandomSelector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.RangeSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">RangeSpecifiedFieldSelector</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#data_juicer.ops.selector.TopkSpecifiedFieldSelector"><code class="docutils literal notranslate"><span class="pre">TopkSpecifiedFieldSelector</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector">data_juicer.ops.selector.frequency_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector">data_juicer.ops.selector.random_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector">data_juicer.ops.selector.range_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector">data_juicer.ops.selector.topk_specified_field_selector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.selector.html#module-data_juicer.ops.selector">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_sentences_from_document"><code class="docutils literal notranslate"><span class="pre">get_sentences_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.get_words_from_document"><code class="docutils literal notranslate"><span class="pre">get_words_from_document()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.merge_on_whitespace_tab_newline"><code class="docutils literal notranslate"><span class="pre">merge_on_whitespace_tab_newline()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_newline_tab_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_newline_tab_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_on_whitespace"><code class="docutils literal notranslate"><span class="pre">split_on_whitespace()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.strip"><code class="docutils literal notranslate"><span class="pre">strip()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_augmentation"><code class="docutils literal notranslate"><span class="pre">words_augmentation()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.words_refinement"><code class="docutils literal notranslate"><span class="pre">words_refinement()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#data_juicer.ops.common.split_text_by_punctuation"><code class="docutils literal notranslate"><span class="pre">split_text_by_punctuation()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func">data_juicer.ops.common.helper_func module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters">data_juicer.ops.common.special_characters module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.ops.common.html#module-data_juicer.ops.common">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.ColumnWiseAnalysis"><code class="docutils literal notranslate"><span class="pre">ColumnWiseAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.DiversityAnalysis"><code class="docutils literal notranslate"><span class="pre">DiversityAnalysis</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#data_juicer.analysis.OverallAnalysis"><code class="docutils literal notranslate"><span class="pre">OverallAnalysis</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.init_configs"><code class="docutils literal notranslate"><span class="pre">init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.get_init_configs"><code class="docutils literal notranslate"><span class="pre">get_init_configs()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.export_config"><code class="docutils literal notranslate"><span class="pre">export_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.merge_config"><code class="docutils literal notranslate"><span class="pre">merge_config()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#data_juicer.config.prepare_side_configs"><code class="docutils literal notranslate"><span class="pre">prepare_side_configs()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
 </ul>
 </li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.load_formatter"><code class="docutils literal notranslate"><span class="pre">load_formatter()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.JsonFormatter"><code class="docutils literal notranslate"><span class="pre">JsonFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.LocalFormatter"><code class="docutils literal notranslate"><span class="pre">LocalFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RemoteFormatter"><code class="docutils literal notranslate"><span class="pre">RemoteFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TextFormatter"><code class="docutils literal notranslate"><span class="pre">TextFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.ParquetFormatter"><code class="docutils literal notranslate"><span class="pre">ParquetFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.CsvFormatter"><code class="docutils literal notranslate"><span class="pre">CsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.TsvFormatter"><code class="docutils literal notranslate"><span class="pre">TsvFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.MixtureFormatter"><code class="docutils literal notranslate"><span class="pre">MixtureFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.EmptyFormatter"><code class="docutils literal notranslate"><span class="pre">EmptyFormatter</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#data_juicer.format.RayEmptyFormatter"><code class="docutils literal notranslate"><span class="pre">RayEmptyFormatter</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
 </ul>
 </li>
 </ul>
@@ -295,7 +304,7 @@ <h1>Indices and Tables<a class="headerlink" href="#indices-and-tables" title="Li
            </div>
           </div>
           <footer><div class="rst-footer-buttons" role="navigation" aria-label="Footer">
-        <a href="data_juicer.core.html" class="btn btn-neutral float-right" title="data_juicer.core" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
+        <a href="data_juicer.core.html" class="btn btn-neutral float-right" title="data_juicer.core package" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
     </div>
 
   <hr/>
diff --git a/modules.html b/modules.html
index d729d10ba..ac5f872dc 100644
--- a/modules.html
+++ b/modules.html
@@ -12,7 +12,7 @@
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -40,16 +40,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -80,9 +80,97 @@
 <h1>data_juicer<a class="headerlink" href="#data-juicer" title="Link to this heading">¶</a></h1>
 <div class="toctree-wrapper compound">
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer</a><ul>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#data_juicer.cuda_device_count"><code class="docutils literal notranslate"><span class="pre">cuda_device_count()</span></code></a></li>
-<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#data_juicer.is_cuda_available"><code class="docutils literal notranslate"><span class="pre">is_cuda_available()</span></code></a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.html">data_juicer package</a><ul>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#subpackages">Subpackages</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.collector">data_juicer.analysis.collector module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis">data_juicer.analysis.column_wise_analysis module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis">data_juicer.analysis.diversity_analysis module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.draw">data_juicer.analysis.draw module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.measure">data_juicer.analysis.measure module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis">data_juicer.analysis.overall_analysis module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.analysis.html#module-data_juicer.analysis">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config.config">data_juicer.config.config module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.config.html#module-data_juicer.config">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.adapter">data_juicer.core.adapter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.analyzer">data_juicer.core.analyzer module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.data">data_juicer.core.data module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.executor">data_juicer.core.executor module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.exporter">data_juicer.core.exporter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.monitor">data_juicer.core.monitor module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_data">data_juicer.core.ray_data module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.ray_executor">data_juicer.core.ray_executor module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core.tracer">data_juicer.core.tracer module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.core.html#module-data_juicer.core">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.csv_formatter">data_juicer.format.csv_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.empty_formatter">data_juicer.format.empty_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.formatter">data_juicer.format.formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.json_formatter">data_juicer.format.json_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.load">data_juicer.format.load module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.mixture_formatter">data_juicer.format.mixture_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.parquet_formatter">data_juicer.format.parquet_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.text_formatter">data_juicer.format.text_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format.tsv_formatter">data_juicer.format.tsv_formatter module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.format.html#module-data_juicer.format">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#subpackages">Subpackages</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.base_op">data_juicer.ops.base_op module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.load">data_juicer.ops.load module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops.op_fusion">data_juicer.ops.op_fusion module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.ops.html#module-data_juicer.ops">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.tools.html">data_juicer.tools package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.tools.html#module-data_juicer.tools">Module contents</a></li>
+</ul>
+</li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.utils.html">data_juicer.utils package</a><ul>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#submodules">Submodules</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.asset_utils">data_juicer.utils.asset_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping">data_juicer.utils.auto_install_mapping module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils">data_juicer.utils.auto_install_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.availability_utils">data_juicer.utils.availability_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.cache_utils">data_juicer.utils.cache_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils">data_juicer.utils.ckpt_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.common_utils">data_juicer.utils.common_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.compress">data_juicer.utils.compress module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.constant">data_juicer.utils.constant module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.file_utils">data_juicer.utils.file_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils">data_juicer.utils.fingerprint_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader">data_juicer.utils.lazy_loader module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.logger_utils">data_juicer.utils.logger_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.mm_utils">data_juicer.utils.mm_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.model_utils">data_juicer.utils.model_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.process_utils">data_juicer.utils.process_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.registry">data_juicer.utils.registry module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.resource_utils">data_juicer.utils.resource_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils">data_juicer.utils.unittest_utils module</a></li>
+<li class="toctree-l4"><a class="reference internal" href="data_juicer.utils.html#module-data_juicer.utils">Module contents</a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li class="toctree-l2"><a class="reference internal" href="data_juicer.html#module-data_juicer">Module contents</a><ul>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.html#data_juicer.cuda_device_count"><code class="docutils literal notranslate"><span class="pre">cuda_device_count()</span></code></a></li>
+<li class="toctree-l3"><a class="reference internal" href="data_juicer.html#data_juicer.is_cuda_available"><code class="docutils literal notranslate"><span class="pre">is_cuda_available()</span></code></a></li>
+</ul>
+</li>
 </ul>
 </li>
 </ul>
diff --git a/objects.inv b/objects.inv
index c3c28ba5e28a93ad6f8589d83fda421461613529..a581a0ac24ba983616715452863bfefd9c68e467 100644
GIT binary patch
literal 16752
zcmV)<K!v{}AX9K?X>NERX>N99Zgg*Qc_4OWa&u{KZXhxWBOp+6Z)#;@bUGkpVRT_%
zYISL2WpWB5AXa5^b7^mGIv_DFFfK9*BOp|0Wgv28ZDDC{WMy(7Z)PBLXlZjGW@&6?
zAZc?TV{dJ6a%FRKWn>_Ab7^j8AbM<RVlE1J+Rc60ZsbUo<$Hfc3~GRRO2_m}VIJyD
zsgN?GG8UDjsH`jmK$u8#cb2#%7fBvK1N|HGd-Ek@3+c|qNE&JPF#9D_;WVCeH(P0D
zH((|6{#AuO&);RIzr<-!Mf~0Wd>34P-yO?1`jdY0!+(GG!@sqkv4lmZA}mH<ZVFhT
z?5@+Oij!Z%f?u_O{fHICyMLd+T>!ZAyf6t%&r>4v@|Xr>(CXQD4nPia_Ub*QZz$+v
zSd=L2*EA3OD6Illg7@JI&x^1;5e3Hpk1RHZ$V8zr1oqQ7t4e3!F9MfE5s_tkXk>Qn
z;}Ti551aFSm~gKMlS9NkU&Xa6hd_zAU#2-xQ+dYQJ@U8mF@5IAdr^t6+cXXyoP#HG
z=`2xQfPhDM(R&rmlSkZZnV{*rGD{Xp$5`<Z)j?Z2s-AEWA4T`Lh>)z$G_oFe>E-FG
zY}q9KzDoQuOp|pCLDMBsSF0f~`3S&<f~-PWkrCA<D=wm;gMmwQpMi+5wDiQIC-HmW
zg=OId>C?Xu0XM}boaYr~F1m6Ev#d(zp9vU5<)^AX0;+DkI4fh8xl0#wR#Z7B60k<w
zUFT_0+$3e5W~WaV28U`rf!xu-A?T+l5*90bR*JZLk~PeU0%97hRj>y6>w{>^XwA`v
zq&7weo7fb;d?YtT8<N@-9c*G#&{_dx0FdtYJYppe9v^v8(%Qj*yz|8`hcrKVWlAzK
zp5h|5zlj3xi(OGNF&rT>SE^SlsE6BqSmGt2Ie4;R_AC+65POz~a23f<lYMv?b+mpw
z>E^l!F;M+K?}_=()zkp94Lpq)ghdvylXsES8Ir$cX<kwy%2B_HR{igS1QY{U@UqIh
zeV)dizo*eYN?G8gS>e5g<<Zk^n+R$~0v_}Hz$twtoA)APK9}t;%MV^ux53WHS<W+-
z%NibVQpXiCT+_^Z5?$;m<As{gDm_Txt4uuOUQl>G^N-?>Fjow@?zy}dmXi_*O=RCn
z44LJr&kILE37ZDmHh~U_u0oN<`@}MWd^pnwi2_#v%St}_o#O&B_4e-5)jzx+uO6>|
z_8va`^JZ!oXbCtwjIqRF^8a!j_*pi$g)^KU^ms)q$1G2*^pCEP3Pc2hL@jeUCpfu6
z@;B}a%d6H%)bA(m3K%9ucsQ0`ES#cO0A0|ONR%cl*)w-U(tcfC4eHn3!?pp+t7I+4
zjq-lFR+r{=XI;)f1iI`B7H4AkFAJ>4lARP^Zx{Xg?x*lahX(Ep^9v2kCmNVX8W{JO
zse$x}f(XW|Khfwxwlk<00RO8<6DpjD0!WM~ey{jygMCVc+g3Lj_1nAmzkR;?^x@jO
z{c!W~{ewe1HGr<+)ZjGTcFv2m%EcU}D#PeJgP}mKmnS*|uGs3UQ&;3e&a$H`Zmj?B
z$^N&2FQ`EMD$jXR(gVxk@mj3Uybv?8_u}V5*O3)L-obE=%q|)Wg1MEgMR<P1SyE;7
z#B?7<>)p@=7EpB$N`NI7Q-aVhY2egyN{v}O(_q%0d)<Lrvut;;oX6=)vlL2%S@6l-
zVJom`<*OGgSbkUy_?R<)_2^H(>|E_@m{R^v&saPWW7+yD)d386P-Ri*vu1y!E1+9-
z??Ab!$u6rD4r?7XisPC`4~1^+qYvyFY<)bUwU7ZU-I_=rns9BT4^6g4(g&tlE9s+>
zt(o+J-PcZ7Ywg6PayCmJj%zUk9QS%OKy+BqIIm!=x0L*0_x`VL!`Uu~>i|WeQH-*O
zK+f(nK)R2&4WNXBZUeeoS8M`w9ex`yX~y6NV26RY0gXJ^iH76`V7GDkC?G&mf)V-<
z^?e<mBrS;q1GFXzmL@>|R`L8qqw^VxMq}Ax7A#gDEK9k*Q>I?RUt6u{=;zCM@I*=M
z$!+F)CQmD!XaIkgHgJS`%~___p7b`28kzaCAI&GBdFvaE!$_ckasB2qz;O<mA)>>W
zX$VH}If%DD2RXT*UW9l2yfnaZ{LVDQ`-K?q6EWT+F`jz}_YvJbN{!*se4QGiJAS4b
z1&l}$9Y0*fmk(DCmAFQ6{0!DZq5B-x2X>9@J|6w&u`ve9&t!cL>d$3;eA3TmW8h?;
z&&CK`KBG05XCt?2-@0*7&Q2b|ibw;q`|HD(&ktqJS*!-<O3IbB`HXqbPHt-&1|;Vy
zY{GP$)|w!NB?G5k<P0k24KF-b^9J@*h*^W^@G@2&3-{ou*G4X@n2vCA3#yP&iAMyN
zRIzu+Dhg%g_EGI<_3t_?9YN22mh0@I_7Ff8@<^{1aNu+|c%sQu8%oB!;~Z)Xj-;v^
zfgNU4<@sBvg8?;&+jrFthO?=<Xmnp$O}G>vTTQrb3%w@9^}1I96MDXge~3v+l}xoX
zMu2^q$E+L;GyQln(CQ-B#mlYwYhr@kMzes~J$${r{qT>Q$$|M&%-I080KAE_@<gF+
z7l=yV9xA=Y`YS@KZzF<DDlu?>VNs<<grW}>m7+W?hyAPQCMn$0!J+a_7nH&|A5))2
z6#9070J4z<&ZqFLta47FbRUXD?ExrCaWVEtf;9H@a;ppSonGdlFlir(s_G1IDO@GT
zYgFy|0E<fVAuvRBvM?PYQ?>2)JWflJir+(`v1kvI%AWGdKnk5ZI8?#e1*I@!7m>_}
zG(*%!z!3G3dWh;5FW$bbtmE*$gGV*k9|xtf>jVRZmAP!=NbTH1q?>9?15??1h6P}A
z)YN2#hN?U3(@>5^X0cIT$Bb6ySx~;mjb<pDj*GlM3Ik9C&<G-#oiF%gQ`j*`k_a3H
zr#A@QFn1J_*d(Z-?}b6_aI5zF@NM#bm_?X+KWy8~6sT1a?wbb04O4ybp=>3(fMiQ$
zQ?OLs%p?azFw0;dFtLOo4J=BmST7)v#?%0la(!+doW%DQG*m5`1r^z<UcGsX)ZGJ2
z%C*CJaH{6Sf{7xqO8!P`{w^Td($EwvmB}YL=#33pN9vJ?f91?Cy;A<FPS&LUn_DA2
z$B+ekM*`yIp$;C^LfbefSv-z2I7MSvc<ReMdtqV3o^%tw<g<L5jo)@Fo=v($KEFB~
za(-YFdu7fj)349l!4|055~VkoI>SwEt(nAl-`f?k*f?zfNAq-`noZ_MRvZc7=Jp!e
zBds>|?RlfjVk7HU9nD*VbawCS-9|hhM0APh8nCGx6v9zdv>Ix)=YPu6DqHFL`dvrg
zHz-ckpaEHJhfn8?U5m}2Uv;!X4MGxLJuH{-s-ae!^?^_4ezSVn(X?k6rwBWvthNQ~
zboHYnhD)*8!9%O)O;XB4O3et%ZdlQ$TFbF}e{*~F_2Z*=^N*`fcOP%OyZbMn?jEPc
zd=UB%pYOgtdXG0khO5V$&FQ~<eU$unSC5Z3_n-ebIUas{5Zv4ITUApswzEoJQN=OK
zPutLDEHAj1R;3tMY{Y2ajxXf=loq8-4)Vg1Qt^kpfV3RbMBCI~OBuSA_>YkRTY+bU
zK-A(HN>rViqy2*_)=pif;Kibl%5We{dAu%0DTcnj0#c*<(A(7EQPzjAKYH)KTyM{-
zYbs>CGayCO%mE3iE)I!cwQoR`bHB=q@C7ndP!;#&U4|pjasC9`CUbyQ{M*bA+(d)6
zTW+FlGp}%y5j$jACmW)@Tqg;1uCh)fR6D;?8dzsw9%W%0=~>S0W?rtMY|}oHNeP|3
zkx7YdES<$fw42UCq1r2V!Tz|W>%Yo8v$@F+*`^LSkh9x)vTfSM1#*CAz)K_n&WSC=
zK(t;Kw5ayUh8oraS&-Aut)G}QWahN3rp9pHUNeMo{1#~dr1(s0fL;BWvcYoReq#b6
zG9U4F93!mL*J2~0vr8Pd>2x88+(5r=XA+sBhEQ(f8NnnJ(>Y>Xw)gZfh+>9hyH6j?
z*-j4If4UGvR-)VvG=fPHrmowA8k{e8PNx5IM`U&ZB+ssiu^ba1JTIK#^a<5tSTt9$
zJE4W=P-q57E@&iGP~g-V8`S1^O4|{HmBc8+n0tx4xhnCO+$`<}<g_EM4?-07G&|%5
zXwLrgoBIaqs4ql}`8-p5^T+q;FNCh|QKmz#Z)atBp1#WKI<u3|pA1%}nNjyiOKA1~
zCh-gf`WaB7pQ+ZOi{V>b-*-DUk<&$H=W}&2dH-v{W!4N4rsp#}Rm_t)8QVNF1g~ix
zK){bY620Z++GrY^v`}|n6CvPjm;_U;%W`QixONSW6T`k1AA?>cVVY3G!^5&qwnd2U
zVxAvF<B)i-$FSr@ChtEj*^|sw6NL$<CoIHFxs-%8gJQdo0}1gY>Y(7$$;%{m#Vk6S
zHB@CDX7sQ++E{gvaRw4ybL3pqeohz8n}l$YaX(~{=O39o{Mn3rX<GM9>IAGFfMcI9
z-cd159M^-Jvd5yVU2rzmI)&fY9g6Mx?~rK~h26-4ip+Y=n2OM5X63;3DNLj)8~Dt?
z1b3Z@a|;iec)^Z*2;+?$X<&jo(!{xiBTc*@M}COefdkz)z=t_)$b@v&kPYOZdv^Mf
z6`>FGk%?k=^XcyKH}B`Gho8N_Uw!;KyFr7B7Zn~xGM`0$6){kZm?@WjBcvi;@F8U#
z<pv|M5f)_7n8#!2xIs6|CJLk#4UIF}gnthMo?=Znpg@{%NQN~b+J4&^&tN&=$Y96@
z8W}W8son;&Y$Mkeb8mZMSokau0U1{d#6SmJtS6eA2A+v?!}WyKa^S;qu|%6h>0+t=
zh@ch4%P?k<-Uc$W*hx-a9NE7sC;adK1*9(YV#21C)x^2sn$c=G@RfD3M4MFB#ZrMP
zYbd7)TSV%R2)+_#LkWvND{^G0SqZRNRH<DFD&lJ%^5$2j?tPMLFk3{knQV)t!v)M+
ztSBxK2UXRU$bg-}FOp<~WyvM-U{@<us`3q|&!c=Bt(z|9ht`f|lHlveW}^->*%s@)
z3z(s<x0T_KaQZfbf)}|wxK*$X$+lP-U%(6vHd`66!M2&h4eFvjZ9@rju@yOTPGcni
z-JE8BK2AFtJi5qi*wn?YqU^{L(c|W!KYv!YjlBreE&$fUFF((_o@>boM_ZOE2-Ejf
zu6A+KxnYP(>jwk=;yHu^*Mj-M5|+=OZXZ71(|VzeN$-OWI@ALlCXoFf!tb2c`WHlc
z+qbZxmT&O@?Eb=YF%<q7Cj28$4&{-~{$^xaKa6nTI)xEJK+ka9oY1)E8JE{!5%v$G
z*reVWXMy==oD$%n+lU<wJoq)u12WGHFiAZ!M2C4|NCohKS~|GmMR^p?_6ssE7;#BG
zVP-(}BW5=G-bC}rGiK$z9Ip{Oqz?@6$bbS?K}Pscwd9uh{5q|YlGZ0ZSbC5237}P^
zPX?+Xk_J#edaxK@jMojUkx;(){BZj#ts5?g^d4woLyh0!0onbIh517mhY`!e@<i(a
z6E?jsj4V*E7#TtSc{s9+)4HVvN$-s|IMfMkB9!eZ*Fk!S0L$aoLHax(yUWDhpX9hp
zz|z`(h)nMX0|(R}20ox)P<@378{?a8`wAl?$Una_@n_8PXIj_vVClWmCxAMnPe$*H
zk1RP<g6YHi2S3f}dJrQnsW;3FD0i6I=>74Dy@hcV1J>3@kV$<q#sOOp86yO&h}`i!
zi})L5XVQlx^~C@j=7a$g!urRY6<l72oCKn>-E*Hs5uGE((P@1$!GmhKra0-_uLpfs
z*!i0Z-TL|nGO2&YIAB$0j1W+R6xBZD!EMN+fYvQNSbCrI2~d^ANCv7UlIC->R|w*g
zAv(r01|GPB44eQzm1!owMiRDST|`=c^sr$*=<xvTUhVhc8=cWxaI_Y01H;VSCZV^r
zob+G$q+3P$kfb&rfTQd_Ai~&Q=L~(%GoA!I@lT{)FoTo(V}u6jnGs5ikBFz@eMoYD
zY%}>DFabubkLfc{L|;#5`wk$j<-5?Z=<m|dN4z?c0N5dA#3l8BnE~YpGaJeufE`k1
zV1P$vc1WR3h4Kmc84Lp|y*D;GgJI$V`QcV(WGX;k{AL*F{WHM@_0<F~$Zwxg85^`8
zp3K1XUK&y~&e=!l>jpHC7#PxR<@#O0%PRBYG~f|}<(}<JSdd-7p@G(-K?hrl3gH;i
z9h5ypdKYZ4gR;*9s&-%e{3_=RFpL}`)BC}|0riK0Pu}<-ehTVi)gTs-_wRX;Miu>t
zwU0~h`2hpe?*lfFKOWiPAUDG0X{-ldv~C%Jr}xen5!6Xzq#$3>?^iRy()(ts{c1)s
zdSA%zPJqL$CRkEm7zto2vqm<+>a6+-NVz)O1tj-CF}6AjvkAiLtaZzXM}EhP0UdMi
ziyaYZ3|LaaV#AUj5i{~u2rsCY;{Z`(!Ux?{W6ebyJJzhIF4kTG`hHh)C-L4Zk{lI2
zU3kd-I(9^Wz?r4QM$Ih!HX(D?vi^DI#zYsUg3BxVr9s0(!Xht8!-7-t72$V|stGM@
zz%@s+9Dw+rV#9|16f+>|^=&_%%4Hm>-4TEw86^Q;&a|AAHjI|j<Hm8zWdV%o&iS~#
z{5;pAkF^OF=zUYGcu6B}odmF;TPF@6?)LhcCQqmSCJ#6hJmlUiJ0jAMvZRE?kR?AL
zX!Pyb?7UlwK5j-BU>ANZ;v<csWz4A2)iNpQM_M(%+U(`2=`Sp%h8(zS%a&3iBFml}
z)>18&1lDHlna@36-tdKruK@$<`n4r=fVi?G#x_`%LZI3!MGtMQ1`MbR<d)E(qG_IZ
zgJ_x;0u@b3v42IyQ41Sz?cFQ~AY!K2uwgRAjEaqng}KbrSa0P;g^8I4dSTx>Vn9GG
z76BV&i^V~OULo(hLj_zL9C7cU1q&dQrundOGtCVP63F+H0XE=z#90nRd`z%`qho>@
z6&odgE4{eBC=eASCKBMKj>|~_VYG-I8&``&fd(3WkYuKT-c-4c7!`6$MA#tgmWYE2
zz1L>5EGp>w1gMKQ7q9`s%Z?WtQ+6`Y2U1kuO6i4xSIA>q^r19H0lPVL86jyvEu==p
z)Iu@n!z$LdYGU`WjFSK_L0wKt8el8vVINpl$O8DplAZ4krH`-yHsTJ~c@okHvY>-S
zj0HC$Le%}G-l4g`)XUWkrhssnBm&<+yPljjyw;0>>J1%4qVE}JgxQBl;3eXjrwbM|
z`;BK<a~`KJ+{+|SrH%n?Lo3uwIMEjFLSKaIoj17wHVBP!0B<c`%t>0Em$Sn<kL98O
z`jVo#Jyvk@C;)}nfB<#(@&Y#cu(ISubqh;mpzjAR?3dGg;D9m_fiIF?PYw#V#bV&2
zZ?Q;Q2jea*<nK>pJ$0F8pq<}+Xu$p3a}>0JJ4Xf!&pBd15UN|M0Ws0WrM?(^9Go@|
z#%W*?FiuJDd-X|$`Iz%ZLvX~E<rXZYAz{OZiVYiXP>^tSYquAiuk8lK%NP&##`U$-
z^pUkj2xz#i5eO86s1F)LaKzp57A*APG{Xm5G_WBDEEAOShIKh;1_VhDn*M_O83x+m
znBjsoDKotEEys(z-VAztafAVO8~-9c(x_R+jEbRUQote#dVFz|1D8`^DJ3GZ?8(8w
zWiJRSzHm2w8Sz1R5v;iY(PYDl4I>)~Q1P=@SF7T;$y%^&kn4d!3P1$9$%BneH`!28
z8>@@#QClKMIkdjlEGw&==&G?9E<^^6rIdh(UqDWs2w}AVnEJIqkPR!-MmanT{5ji~
zo7CtQ5jK~|YHoDBvy@_k3TP<_B>FHX><8F@v?#M2fB>3e!#0#t%&3+z^>dHqoMET$
zMiyW?mldplNLt2^jjd&}(58r4Bf+NezAN*PNgnlxa@3oj)3Bhb)_?()Cub2KpgP$y
zV=I!a6sQ0$b<P+uYfa;3>Iw?2aVm7~A18i5=&h9m8;WbCLWL&qG_aWfmDXqh8z9*1
zc(I{nCj)&T$sK>ttDwyUsGLj-*hm9u2`_Bt!xA9?J0SGtQOFL6J~Vw2sTl_HV432A
z2FMgKWl+cyVA)I%)MaL)pegqYKmDCWl{&eXO}o7Vy#UkB(W}vG3)6sqX5kB|E!u#@
zhUh?(TH%?WyccO>4-s+$bVv}+vJiV?o{!W;iF7{1Jso8F3Na2(?2ri}5>G@a3nmRe
zXK)Fi{^N;%%`DhVO5yT;%(A%v(nV&~sf(%9KDW1V#t*;d@~7a_nPMz>+6*h8?E=S@
zWWhwilIog8;gigb^|vcB8x1gb?{99ezJ7f4K779W`sh90e7gI1^>`zxSXt)blNc5u
z=)Qb?lzewrkB>L^pW$?WyAo6%?zhwL{^s`P{^s-b&32RzzdZ;p@9zG~r@KcO8)ao0
zqCZt(6bJ?}8pjZ1EHAj1Rwa%B*br1aKLOf;3+zV0)FOmA<enE<niQPgUR~sEOxEKh
zx7smGc)_pJ<b~%YoyiQav@M8<V9BJ~mM7vYxlXfF9v+T__A$WH+Q&qIvd>M-!id&3
zEl7I1w82p}`B@aAHOU2$-Xbk*ltDgZwB~5==#6nkMw#Mcm^>G>)@VV}8>9^mu*uC^
z#u71|^7E9;C<9DVs|?X0W+~;3OZxQfRWqa@w9q*Gd1xbMY4^=sje0_3CBXZePhUP0
z&latSA=6?j=FV_(QweCR$OIAfD0Z5Rd|uX}yXTQQ>4T}5UG#H|T#MNFc=Px{)Q$Hy
zA3uEhAgTu<LPqI7KYsZ9^@euNW5awSh#!ALHVD(ikH6jBJZwn&;nw^3<;&gnhTfq0
z8DYM^x&Cth{tt=k`x~L_2W*EkLjCwvROn5WhPC!R9u@>%EE-^TKsUa-NKSUWoE<!_
zOVyXHA~~UbS)U8mmA&w!B=5m4pxX?q41AE!4HJBbwLk+MqVBffQ8C@7fK8Zw;U~HK
zhB}%%up17<%)H3BHZwv81YJr%bax3r@!caqHP)X)|2bhX`BFd^catW2gc2FuBb2~~
zyT=HK?j8duy!$Mu_<pFeEX_-uW{x(*2hf{D`8X>u>V~9%z#Ed#N5yUU_B9FpG@xtn
z`jDii8Gr+ZIzRD*>&*x91kBAFi?fK+eNvc$zpRM-<4TTwsOyXsH>9>&F+;j0D`wDE
zCM#}4J2gp6Ss^Ehh&LWha#8oo(`4igahHy?dme)Z#zDK!g8IeKITH2+DwXArQI(VV
zqK8Q8f<88VkSYdw$5WUl^#ReJ?jHaAcUtp|63|;~oC+097e<uP@U{Y*=zX}~R|Vx)
zKNBpyf%*g}``j`g&?t3L>8;bl2Q^Oh(REtWbU^7X(}kxu%;zX$)!~M&I&}d_4bp=K
zR3X9O2kf6mN^7(Lsjbn523X^ZXw&2HJLPGZJ|uQtIm!l^OOCRE=8vO%h&khcj53r5
z;KXyo0Y3G-V@N>WP@gGCPox-7w+SQQd6b5O{5XmkcoTbp52M_%Fu%+Bp65LA=?rFq
z#kTm9jF47;k`WOSMncNg*hoO!A{#ljh-yH~e0Rw&{W;BJ7KPtw_oYq~(E5Iw3NXmL
zJBjz@jXi|TP7jjSLVfTJY=Q_{Me&ivPXQw~d>a&C`VKtI_(m2w^EcZIKLk1f9GMHu
zz}QZAhO^u4ZcGk6(=ozL8S^6))LrEm4IuF2^o9QzK1E@A$XRxz41F^+u|Gyg04<T`
zx=!O*IHe%AQx_IsqaFdwK0m7~rHQT61_jur0}r#z$22*p+wX{t)58VWr_ZpJiFU;?
zt;9U%ne)tx#4}HBE2X3RoF>iv2}dTkaq&DNcFs5jz)uroFqg?|K3Vx7nie^$qmFGO
zI>2&f9+=S{GVX`_(3ftaHkkn%U@#L4%v_J`DdMF2Y>c=7GxZr@CQ_~DuVH!okoaky
zbGaq;sSrcz<Uk!@^HcysT9E#Mw(WFO>Q3ZWQCt|IF7FlR7ih%FBIe6We@e>ZY9?4>
zR~iTaZfn}{hb#)|%ws?$wT=lNU>w;RT_3CDnanUfL{g*lv1Qg8mBrDQKNbiIyv=u_
zO{nrBeBseaD?&kX&gyvCC8sXyB=hq$0jb+(r~oc9FzSRFNb|KB(Dv(aZDYWPDvntm
zekWWHuwX$Oa=^EZF?B{kpdDKTXcM-nP}ZwYW+5uE0h-=oCKCDuV4eCHavk*;G`*>|
zxsF;>QE%uqpaKkp-q2g;M^m$<CV>#GiHzX%mNL`83|5G4<f_QT6j3Ecq&Arme)sTr
zfAx6t({Dtd-6pvJ4l)x#U3AI(hwxAz9c8ou56EU}0{i3XeU&qMlNrJ3EoP=cjaAHS
zh5Xf1$=U?v$qVYo)U?0wlNx0}9MuJfIjTn^mkG4_WZoH-HxbMT4vhz&Cm08{kYV0w
zbFdc{g>qTk3wS9S@iZ?eJ0b%ksF`b}-UO_(n9=DyG{S?o8De5K0uQwsc!KupF)VqJ
zi2*!jH|r!mso|!X0PQD}@$BvQa&qXs>e-=3p3rH61)1z=4K1lVR|!C0Kl~;^i1$0A
zcdh{)l9tMf2fJ-_nFx@>8_Prho#R_31T4+fGBFS*TkIsDY*OqPiO;^+ky7vQwPZy$
zm-5UXw8d-@pi+1(VB4y$%*ufarMy0ti1ccY1DI}XG3Q1ewv~q5&w6X8=j&Ww04Ey>
zP^r-tu+erh3wQyOk`ekW=OSLtKWht5B&@Y%lWB_tXr2EI5Hm&sRJynYY_u`6fEN)n
zik{1CZ72`6!4b*qELZ>@o92UgN|r)7s)Y?mus6#AaMBbT%tc{_a?lx>Jl)?UKEN?!
zOfaWJGQS?mFKuu{`aug8fRCp60G{G1<)2{m^OW9I26RYTL@ORrciAyQ9H#b>dHN)=
zcb*C%oHxmYPUPr9ze%D;5&;p3AV~y+EJ~9|2EBB^NkZBN#z7G3wF)<3$X7jk;^g)9
z3h*YdM+8ooxt@HBG)^SaA<}IU2nNZ<NhcR&vQ7f2Ah|pV<l3ZzSR)uH6DWyfkVK&b
zl40_QItT{r>z9Z@oQ2du5>%2>2a&+TphcqK20=3WByi}{g2$v)wPf08W@0G>WW&r-
zArK!%ZDoM8e>0r0`aH*rTgG|TxixY1w@ZLZCcA)b%gM<SaiBGNi6Gc<tBoXxx^2UY
zs^3=Junsz@^NZr@c#i>=P<IjEHvRQ7QJ{5vnJCD<+fEWhEw^Jv)pJXBSWPc<+E{&~
z4Xm~sSdb}(*U)ZL_g6`Ttapn9LR7y+0?^lkefZ{8I!7>l_z%GmDU>Z(NIhr62bg{w
z>QtU`yZSy)V~^KaR_XmVM}<!M?8J}G3QZ#%q?M%+4Km`Q5e;<Uh(<U>H{~W7Wvk~V
z3Gs;`H({v9vX0V__vr(9FoWAE8f1p<RlL}`U?l-O?ChkVADM(QFRS+yRXKf-4X^=e
z#%DQ5gJ+(NzD3ZS{`m$#9WRHh{PPRSWm9DM)acGK09@`O4XoBq3gxpXlD~K_q0H3n
zu`HxH6gA++2O&7E{31SVaBZE2UJDR3`P@;y>=PK%$dh@}iVfgLJ6@O<_sqxk<b48D
zx_dGw+K>T!Xhn<a<V$@o63TyFc&%A|6%(=ZW|;t<o9Co=TM}igI(Qt=aQ2~hpVbdH
zbdBW<1F4JVxB!i!p!5UgeLq5c(}9-Sh#&rWr1Z@c1GR4^xd6UN>rCK~Tc?KLgOv6J
z9<pG;E*LKn0J1E+L;%p@?-CIZOT0GxlvUM+k9fJ(hLU=9%!-q|GrzE6?shWbUlb#~
z*~yw~qv|my1uTMampYA6ob@BW(rF>%Hm<dlh1$Ux3v(~a`JU%8>leLy%>=tU@$=pJ
zS2EWwV8f0o)(8R_U91rV5$H?gpzP|G@Dg|VOQ^T0*CX8ILx4=Kj#v7WQPRF<8PLAW
zQ0?w61u%D4J4!$s?T)el=BU|8yq|dcFhcY$1MuCQ`sr5uLg(Rm7FsV_@NMF$aazK*
zLbFCJehL^YLOSrZS|8PK)KN0Wgou<`PF%EDQ`1Gv`2cGe)JIy$qh^d^*PM_2Q2$OA
zJqsDJqt~^<bVsoNRiuL6yt7m&%G$q_n|hGBm><v-$V7SGQ}`5x=^<y?5z-ipk<_W#
ze{4M=Y!DW+5(n3Een2-<i{YnnEMlpEdACPU>v&!NO6^q}HiS2=cyV4lau)C$=EDwr
zt=rG)H){XQF(G_6%Zc+_lqLsHo;t?WzX3(9;YacNukvSV7g`b`JZVe4p+iR`D2{0r
z1>Q5~+2tKVITA5=INwEoWb(uxuzi?fs}1luO`1FSn*tGa<T;6fh(|Ypa8a7`jI+`!
zMBgNrD{+m_2vM#3y?Xl4JfseX737E@SR=;fuCKGvHb2ws#I7l2GUsp~`l<@xV$DcX
zTlt}WChHh^oGm0q#Mn|1aPd{D+^?8JVPh1vqL1=-($iqe2oa98rN%i_4`yD&@+h?P
z(>&+uVu7ck%){h>tIl@3wK>$#>Q_<rLsRtOT#`B(hy_DL4Yi1WbadHE+8$S{JDx_N
zX_Uw!xgXz8Ww!}w@k|859O~z5{VQRBTeA^ItvxRw6q`X$ol>6MiAMZgGvrel&B<J7
z%|+@!dscw^ROjd)tK^y9bp!03>~pW>4`eQz<sfy{JllcS7Y3<P#Wti{#KnMA^axd6
zgfBcg>4FrrFEWAr;OMJPr%fK8^JF@qefRLM%HK^Ezs@p{#<#mPfKW6Gwa;0MSbMQx
zGuhx)6#$3DA}KZqjAim{78*qr$1D%OBi3v!8BNA`I2Qtk$tr0!2$ywoZ5B5A*Nq~k
zO=dEK`UxB-3uM?JI+jQSi;3p$M{Mt6WYId;7feFBlV!93moF56eq)Xn19+8!nLw*Z
zewBhf8NioTv@j3u<BT7?*IfP>z}#qJsr9^-kABrps2#e97U9}u0-&7SEON4v=VD0k
zjB@h`k5;%|J8hm3yLve_z}+i^z`4ATrw*C?A}7-ymAGmDI8~##e14@K-^-`uu3yE!
zdw9IRdc67RH=>QgZo(jfah)XFN90aC@>xXmwZFqA{+C7-=49G5QQOG(=ZBckUqp@z
zwPj+U;!LmoKb^dw${Eu0V?<hO^|j&0)BE}vvEx^81N^>53fP2mjWGHh^?uQQbpxsV
zoXdM{>u-)ZW!rb=eC8)TLxfj>K2yi&zwncqjiTzn0&-*}SR#h}xTRk_zx4-8gs+za
zX||{Wh0haw__tX)Mt+bFP;qa=iVS!we)htmQ0*QIcqvAHX<m>HxR*%-A9Qr2Xf~9{
zsHTkW<_bsrC*4sdZQ=UfNYuyNRqTL>Und7D);iK)m)FOs2AV_G*;n$TLtud<^g-}?
z3`<^QvRwgRy)whJ`}O=BbMcB3KWPlONkTcaN;6O2l0E6?IR~FncDGf*gWE7Fr#&_=
zPaDb3_6srnG|t3$!7EBu+Szg;!4fxFK#TuzdDn_OYIVrdDw`Pr*g~e6OnOoeqt@UR
zJW}JZ$p~r+&4$vs;BC%-uXy60>VqEAt~?4JT5My{)g^Obv5P!HzB*{A=<Zn(q%pD0
zx}fAH>cP`n<iMdJHNk+e)hHLS;U3fM8EUt20&=rWP!U^g-_-Z!EE^9*BQ6L%P_sEt
zxKYdME(p2X2}B|ek6g8Ns95NsV|s&W5^^8T(9!$nz_+Tp(_|a;T<ZluxOuH8#34|M
zzGABgnB>Cuz-#Hry}w!zci)$38Wp2%RZl1VS(V|$`|9cZ`#a%EUV7wMyC`KreK=M9
zJTd2M!H?ipWh(qG=Fd^27B0f%;4W+%lt}*p<nBuR^g;hJzD}{s00!XsYT-`dAG!Yw
z#IK(@FubrZVozZtulu8MsLzDf^jN$1;;E<;*YYQMIyX<F)v+;yOAs1uhCnlT`Zxa~
z``WtgKW9|U&jo6CErT^nLwV{sVF!n*Hw8*z+bMWe<vdvgN+7x_PgKt0Im|#ja??P>
z_odgYR7PQe(n)nZK%3><pSo$x4ZL9TDnvKo(>P8Osw&k26AkR4{#>kYfKXoaszl!X
z7lm=?)W>(2g3vEzNFG^nBm)f#Z!dzQqy%gkf($m{MJa}&%x}h*l&Fp)u@0pEo*~?n
zRPoc~E*Kl!EN_O>jsdHHc0Y=4>bm|%>d^d~@wx)9t*08f?ydE|oV%+jREqv;65o$F
zORB6M9mwnY3m6sF0lR>s8TRsnYuU1umrQM@TfjyhOTaJ!x)tit`VZ08ecA8nOq}MF
zSO{~rP-k|;*<;ryKPi+yL+$F5rUa_XEF&LNJ^OW&?x*izM(OG<9;LfKe*ZJ2pdC0$
zIsaLd0i~c_JW5H=on!rj7>)J%N!QU+M_OmFZhN^NPOj@DCBeu}1MSp0Y~kSP4$kh}
zdU*ja{5(|m4Y;;zV-!V|WofRjhXQfX!m1nP-bzwTop}QQ+4dj;z8RlU<Cdq4823fq
z0*JCk7>n_g+*e8)YR~-C+~H1!8M83)l$Ar`iXl1!MhjR)Whh!e7I~_$PKM(JVNObu
zg#I&m95?B9AfT`~J`>cDS76YKGUv&mJW`|c7xC}Qt@yOk7ipFI+ygY#HL@J^(BjI~
zC|bm7zYpJtAus(uDR9YhxyTOimp(<H&yJ9{`SoQZ>TDenoCx@5RvdrfCxXFegS2aw
zxaow`{WAi$@PaCfLZ6kK7&;CUfWSo<15j01(cyj&1MK|oEGG!6Gt@4U2~mjUQ(xBP
zhY8sfpukn^qQLcWd1~;S?}fGN%`Vj71&gytZcHL<#V+WCBL6jgy63-FVa@}Z7P1Gp
z3;rdy8|=daMqs^Mh^08D=`#jd&PE8Qrw?*0MdQXZ)OBkih!}FmqNIxT%{;^gXi;QG
z=9TF)PryX2YlaFKi5kweFAc%5B=O!Wk{nASFY3Wr>qUOzPq-HmPUMC(aw;e9l)%Q<
zUMGsElCpqO=t~pm)>21ku=QjgvBRP1+p&Jpt7?oF<&l@6UwDO|=D3*FbVnW@jwO~O
zDfX{g87xo6!d$ciaTu|jY!W<125oQZ1y-H2s+9Q;4_g>e5pHF`%T<$Eo<4!O!T{H5
zM@(-<M`2?<AG5bDx;8mHV?J`MAsGUm@gz{k?s#y()lbQ#MuJEJ!nxUyAmh21R=xpi
zd3MZM!PWf%Ngx}rocs0megvI5!owm@kD-wLbWx_+2Ezf>7)Q7etCw|~;Rd#qsmZpO
z*=Q>C%%;7xJQ%ZWLb_3BtvRv7#5(Iks=t=uEr=hGYM#{3J(hEZZ74L?Hp8i!3pt!p
zIVVw*;7|2Od!qFx38&7s=)L-0lpfaa6H_~YX-;iipmr<>JpCP0Zq%0#npMKJ8@gKH
zewv-sW(6udeXV8?=IYq&$qV;hl9rwrs1#*EM6wT)KySIzsZB3mc`3ltC`w;N{IY-u
zF%<pFle&Of&Tz{k5p0<=(G2pOC?t}D7*OV6Qj$e*4^e%7bJ)v121u}%eH1zfi%d@6
zof@%G^yUjBvCtCMdpeaaCpV_S1HNZfR3hN{TM&wQ9|F6|g8H*J74U&4@;)@V73Tbi
zv=-JfQ{hMK`^i&ZQgi3}-NM>^6n}p_!>+2`W;lYnEqZieI-*9c4YvC^3<93qNvEv;
z%GN=AC`GpuKc*kkLzPzuOk#uf(f3j1(xgp6i$U58iz<#me-$$@D(HhcTrY1#@Lap)
z0j~H#A2f3vNOX{Mt_N&haVqLvt7O;(FRRScKe>R$F;N|EfOc1Z_Z}YaZ>~Ohk3Wn5
zz4sn}yStI_YCODByxoId#(I>Ci|d;OGo1cX>NFS`0p_WXfK`k42w*jhr2!UI)vqF*
z3_yMp3dHOs797oYPuGCm`B7SM?<}!9UR9?JQFp#`F{uq`1l8YrRZc(}z$R0q{=k39
z4@wGtPVG>DV5!aAFmx6Jt0a`CiKEj76x0gIj!7Oh3(mXTsC_LNRJSK9C>i1<DG0SS
znr|89xfdXT9j=T!!|Knga<(W}m!4R`|IeQZf#ooT8aOF<bN<d_dwIpR%5-r|qk!i$
z#tzep1V`OubMCYW;R-rD^<1r^wN47sK%cvRLO2zx#Fzy&9<h*g4e14rM(2#>1#j-q
z5%oMzLmJ#rHlFgn`NV&rL9Fks;><r@l3qE()@fH0`Q3}Y(XY_~$SP@~Y?zyMLTAKM
zjGE;bpcM@i-Ks#Oy4<mawY$3e@Jar2{S3_jMzFflhShhw#f_K*CX}~YbB##l6*Vw<
zV*az3<?ElLFnOi~CpAEpbJ1pTk7XeSI0*MTV+IC(&x%rSD@33lE0sw|ZOerai1sUr
zG0+guBr2aV$hvFuRNEsjC(fw}<SmDXM5b9zPNmv_3eltBV$hiQJPWxz6P)H=vz-#h
zf>9)t=d{{efiN@~^G_J)dQm6}GZ216QFohx7)_tvL2Iq$B^jBFx)TZ$&#waJ#bQX7
zpXk8#`grUlZq5&(7<HYTt=RzW?puhfhDQS=g0ayM^T10=IJY}(hj`l7D#(S?GoF_x
zchKgW5*?!ch38%!I}R48uZEzh+g&*QT`jBh$tSn!V#JmIs*~ptqW@m;{G^+XFxjW%
z$f7-R2ChWK6w^Setv_8jb*1@V)$>R3<25U|yoq&n%VLGD5*g%WeVh8t?-g^nmfnu>
zycwjvU>(huS4o}OQ;a3iWI~^>*|l;Pn5pC}f1kc4Tk+5;^?38}=sjNjL{}Sk>aPAs
zNLx>@<$=ak@b8K;_)C!b?|$gMA<MRZcqc}v&+NcEqOpWUry?xIK$_<Rw9A`Qu<D!p
zx3O0gX~dqyz;lZBPx8qR`pFN?lOGxkBAIr68r6w(>PFI1xVp(S7Pw%}Jk}r!#jWDx
zoA(+P{F`@HoK$u}pzts7_9d5V6ofB4FT(N!QRj?4ql}^43RQCUN-4X98-KD~zL>M3
z$~mEk4dUd(<$|Wd87zt*5m95$#KWM}loGXY>VuoyJ?JjwyH8z6GjCBnHFFY6%GMhX
z=RZ5(`o5L1enCGS_6qe|ruJ7q>N>hxd|dbzU8gtDzZ?64RgyGs%|%&T9)tI~VB=2=
zu~f@u9Z6P_Oh!@7XcI$iGMfm>`FQ-~+!Q_X<d@N7Iq&=HQglk-nx+>uIUk9cMf^J!
zuuNt-pAVNt45N!$NTUyop<)(FR`l;QQZ-QHPweGV+b`W^QZVLU?PcL_+^=lLdh_y}
zp~jyqkxO1e$!X-Op~j!s%N3_$@<L*+25Izxy-+z5Lq(#f5?G!&vd&Ky3Pu=WQiSm^
z>pZm=Qtl)q3A7q$?DsK=7W8m463p~&g3GRNYiR6xw!i#`4OSTZ`Q3kX-qp!v#`;D5
zbl5Z2Z<+cg{iy5VZt-zJTXdZsQvYu3BUeeX^NW{np8ngWd27pM@cIR`g*jWm5Q!5K
z^Ei`JQEHhL?6lPVBFp5a7I;$BwL<=@NE3S7O4Mo7_DU=hT5hr<l2k#B{k}}9ID9L`
z<eJ`^HSn}ShlQ3&pRxS+ikI}#*TB=#4+|}mUhdeT7hUZGnv}a&VxiE8rnsDIic8C;
z*m_uCCD-K8pk}lg9JI;ihX-jkx}GkRj}JO`S>Dv2%EIh$$oYZEvE2mZrIZo9jWSQv
zjT-ao<EAo*(-~Tb=RaJY8;2OA64$9*zIo>(W#Z2Z_+0p#)G>sck@G^?W?cE2p~@^U
zLYx+&rIML1WNwOY=gcb`*g{gDna{+Q7MXw9%`Q6m>IPP5a>rU}JuE!0rFFx(O8&`)
zv?qy8gK84Os$s1Y-A*-zx`eqQtlu7MQuO0t#B^VqR;xunX!!KA(MHcny4{gS8P7%E
zUM0R&6t^WEiGU8YMz$z260I}x*T*5gwKM0?s?olSuqLoCIjz*9>SrzSY_+S|ZL3_H
z*si(-yvZywJpyT$GgrM1(pZSM3k?Is1Tn4fK&(NPY?m0Vn8dR0gb}Nl%Z|8%Y!mH6
zjYcBKNZ93D@ybXoSfzWNTV{JB)WmCyVSJU+D0OO_?Tu0suQ7`8Rd=JPLzkNwLLWo5
z*WOUxU1jy@;E5HXznR|h`+;Iyp!>)>MEY;uI;w9x%Uj6t*N6<UZ3U3(EUg41?-1#)
zPQGlae|;6hBK-~Txa+^I>PyvLsq&&h@+wVc2h1ILY=_N5QS1iK`!Fi`<gi(nFb|mP
zx5tK?`tdM~y01+u)}kK_jP<k8A+eKmI%!iPTFzYdbTyVue77YYi3bBk!?2*}NIcK!
zC2#TgcD~C6rCKLR)SPn0!cOWX@&23490gUc&Q4{eU9YT@a`FlVsAB4l1{<x~1y`yh
zcdyDJgv=!JtxhF^QciQVla|bBIsV2vb<e9ca;ZDxa<Ldz2hUtBsu_K!URkGbodxTg
z&Pf8&w3}*cT18{ob-LAq-^;;mka~mkUeg+m6?aooCE)m`uhz%v*-G_cr>WruCtc+&
z6yNk|PpGDsbb3~L4vQ0LiTCFv)t<eUbiR}cJD}>Rj373OwF^3_B$L&BYvpf&s@Kbm
zXQk=LJ5EX$N0xD@ri#HzzfMUvt#Bi`ORhmXot#H<wMu%&QImTRs$4hAp^cWtHwe_-
zs515vH`%L9Tp7<9gP_`8@)FtTIVinOLwSc#rIZZCpjBmh0x8)r2_nriqvmM&b&AI9
zEsU#plZjW&wP4~k@y0rJFIfvgI$j87R2vptsgcT(`0bJ=@mrlI5v8CxE90ED({HU)
z-LMY>r1Wr?#f-k=FF2^W59JJ6{5J}adP*A2Vx#1+w6lh-<<>1!y{xA$QQ7#`O4XZu
zpeR+(`9^1y>z7-pj!K7y(nV*Yn^B}wXq^^%M5i+jgLF}2GR-ifkfEfDR?SZ1OSWUA
zhV^FQR%&GnWk+9f(HlCtY0~Y^k7^7hS865iV^-}YN+(Gm@#i$^ms_V#{Vf^3lG@8$
zJl8Ic6?ao|gO$`_(qubL$yQRE%>mf2jNP;pRw~kbWvtcHIY%~I1ei+VY^D74t4^lS
zDVVV{=3%mDE3Hj0Q0khqeYu^+l5M%#?YEqC2d<~LGHl!E=f0j^tCafrH<fIAi#EBN
z*xO1`^D9m&%L_fD3f?kbXsi?+7I#vzWa>`&Zz?C$rLhL;TQlk;R82xE3&khibFu(>
zowlDp-bPoVby_)H-Cz$zlTzMp`@~4;^%@q)F}|Mh&yVp3<)-ynw1v`I+SzTBHM{MG
z$u_awR!O;pnN9DNtc#d8OE&M1?MJMi596Wt;<R3E5e6G3>xZK|CS66`J#)DyT4u}D
z>(ZHJ&~~IAiGvo0rZ_X$mmG=QS-lb#z5rEH@U!Z4OU<aVs1`1eb+#Th0@zl>4!2!R
zj9E5Q5p@Z3J*?jzi*fyU7z*9jrgdu359*+PHd+Opq-!>a?)P!V#lYt^mp=#cb9`nS
zw{6)+LZMAob2U^A(~4I{0(wScpGD!5y#4%}_d5eAdgc%mGYXoDx+^B{+sEssZ}qoT
zuU*<%LoxEt(nNmE1S{DPS?k$<VWq0aFyV#TRG7T*yhQ1#X&RO}CC#N*Y8Y{rNd2-?
z9v+S`4JFNmWllqLX(tVN%)$t&ono-ktW(lSD=8dQDOu1;r*=UnmBI|Fkj!;uq0Xh4
zlQJ^3VFA@gF<7b8DY;H7{+6*sjZ6GI1*xSuG{uZwrlM;VQ~A#?Us_vtI)Sv*3D*Y~
zGtFr{{Th+>@?IppI<tlH4cju^`)|3b{-SS=fa?3AE_$%jvR&3uH!-2s>uyl(Y8FfV
zdZisTOhW%z<~aka*w9$&*e~v=WKm`Ee(lR%ZJ?$#SF`ilMqAS>>oiuokt$)mG(dS&
zZa1nKX4Es3T&Go&?@P~k^~VkV#$*yv)DYpEVoc0x)klhkZ${_Y_vkDDjOBqA7QsCE
z&N{8@&G%1Hm4g)3JLx6CjCR9<PAd5<lRa?jW8EPu|NH{g^1`Y8qZqB!o_v$c4%?`{
zP+tlq&w0wBI<~T*Tc|iF?WCbTSqZPF>ZGJ~WgV1uQt|w49jIUPRoq6qUfFfJB~iwz
zgPgs9^wI<Ze@3T4xz+mkfq3%$h|@<92>f|{y5-jClZtjIRwpK5OZ^SS{7S!}q_bAQ
zb^eRE7R&tR!mjFp7x~XZTdwhsmS3l*K9!y2e9v>9_$V#a+3E|+jE*CvS86EpzE<^m
zP9pD{Z?aaSbiELE`R25qdvB%wr}9{DG=h0oQ7DEv9fu{|w2D~#6fmq_n!`@BZrOFZ
zU6voipjncH=yzU2Y<OmL94)_A&p4I)Q=Y=7C`=DI%Z@lrB~^!MR@c!t+_aTfMawNH
zSWO!iJ1zUA-84LM7VsRapXRXBu3Oekw<wj<hkBDEQb9>n-}Yps<gmP(qKRyOE*k(Y
z7l0v^7Np+!`~LY-FDv~gUv)Eu+#1W|0yLMK$9xX<yr#Rb+37#_mYeGJ`C(s209f&c
zOmo?(ZGOj1>5@G~9J(}H3$KW5mSsoFyD3^XW3Qn+WEv)Zn&(`9X?ZHjJWLK?hwJ7_
z(qGtH<aS1}1X*jTEUK?nQyWKN_E0np%dFzY((5#A8Vp(2qY$NF!=g!M^fMP;r=G6F
z{;^7)L8__hs0e1%8WvoqQhiEh`1PUQMhnqWpMvRsL(m&zr`5K2lh_W;k*N(0QJ;QV
zV~Oso#HJ{!IA(eH9X4<?>vW-AWs>3R#Aazu#BOJi`f%$CV|3nhvcq{N#Re6m*%h&%
zVwhiX(ir|pt3IG^`AKV}w3~{X9Ga*lUvg+->J=xA&!gANF;Sq-%_#GH{?kV5v6me6
z*7t7qZsLIIuI|_D+^=D${^)xo7HFRX$E)8u-@QQj;ag6s*Msw?Q~P!jpzeC;{dBtA
zJYu8!=v!2}tCO0lgV;uUc@|UAEmME+8kPQq&y$T*S5(W??!4lpa_<rZ{LH3vmx2AX
zX8biu^*0!=neK8}YygUp+v_nbd6B7s+ZJDIFMNwW*3P{)t^A^6&epoj9&)bPZO=Hj
ziS3R!7d#R@{&Ygqri}TR^BH06C~;F@7(o43r<Lo7F*xqrJRLpoOd#iOpYz`<eVgI%
zzSJ{;O}KZJ83~dhuh+j3^-SvW?nvlc7$j#&pjIt#x@!sxMf(Mvv^wyOU931)xOe8g
z^+qVu?0I7wNXiu^n0{@}0*hMqMf%LP?q?Zn+xITLRSQ4xuw7$oY-2~7*0C0K7+g>4
zBJnh{ik&GFOCX6e_Pg2XLxG}{1<t}K5aW-wVx*bORWJ92I}4L$4bu3N5wRB4gb5ku
z;@&#k7eu)zRY##E=DGC4<?jw^nWj-OHY`#PhvOmrj;T7RCtb&P3XcnYq3YB}^|P@?
z&Iw`d<`%QT(VAw;)m0geTTne5T2Q}Z5?(#&TCh`iT#pM?$Aao-qXm}>v13KS#f)FS
zIah~U0vQb30<7_-pBifOxR_O$%8dg>sq#0-`GS}W(g-Y|8{{*vWiba82rb^0Y}D|>
zLW_idVWAK(jMNrULfKom<FXG6Es@=4{*hA(tpG=*Z9iQk=5t0`5hdQZke7#xWK82&
zu8$B(sSwBIY(HKoX_oVXOh^qj@o1TFvLYrWk#IHG#G@s`>D~Ku9#%W>$NbxRxJ*Vd
zdCapsOiEf&&#)5`_sc91JYwHZa%->LCQKr-1Z?o8pDq$JJsjjl4m#6n#8Inu9xstJ
zjwz*#<53CEj}}Rn2As67SAgR(ww^8#Gs{z7v|*Hj){vv3cAqa1Hs^=1DDxAEm}jtw
zN6UmO(kk~!8_))G)Rw&hOXRJRuq=5&+KM)qqXG5+3IFo;3XIBYJ>j#EYJS3JHM?&y
z&Cc&T_MV^Z4d!`<8J=lwXK$tv15KI6Zhc~MZQ{U_FbViu_x0viJ(K<*|NOU0v3lO!
zD)B3i#88XBE7Nx^8~wlk{J$c=QooXCiqu!J|E5v?BK|816z^CPyi=Rmd*WZ9|5O+K
zK@|O=F8ZPM_M`f#hAqW3Di2vS3U)5=SpQMK_-d5@fApmv#jW4}p-g{h$4K!*=lum{
z5^-Q~OLqF9d7$lH$A)%LyL!|vs(%_Rh%{yY(hjr^Rr}3$+;>n~^2`W&r%pw7<t;eN
X{bTn<{hNO0K|jBfHR}HZ8n&gCg@bN3

delta 7452
zcmV+%9pmEgf&th%kbZx~UCVOhHkRG{D{8_WF)Jy$CwirwETwFXC6!v4<#P1~0g=c|
zcJXCCRLY9zi205Az4?*>_{b!QCy9I08<(6U&pEgkZ(IN&ttk0d9R;lTkRPs+EUaVp
z;jbUU)9;u2Dv5t=pIrRq!^IE7XEdepp^QrH$NdXVD3>=`Tql3&=cr`Y1K=R0W%=Q6
z2HY8dmxM%VR1wlhX4O6m!JwOG-x&gOSkQ0eHG9W`-bZDHh5aon!XVD-(3jvgdSgWy
zRR^HVA>o1L4H+3IYskPsmgIHi4g8Vg(l`dP>;w(Wu2Wnft4?7HwvAFo$|&8%j08=-
z_T^|%$Twa*h*N)kcVVJ&tvxkj!af@jm%=q)i43L@lC_p6_Ix;B#1v{QA;{8gw9~d*
z?PFuB)xE;r^Q@@I32$4cK^0}`B%cfsHBdWNwFRa9|I!Z)4k=;9j)9~wFIY|sQM5wl
zt*u}N_Z7_IJpRIUNb{=g`KT(p6Nu^S%g5{A$xqjtn_qv(`u?9Q0Y<B;h+ajlya>=*
zTRP%U@vmrpzs4C2OK-TgvL$6AO6)7Gg1s+f1Hv<dK&=W|vE9KJlD)HlTb|b_A<2vE
zmH7fjX&LSI6-l^L(w#3_BMH)k75&OQky^hlE(YD_{@Jz%D(ZA8#;WmtwlppM=iX^K
z0s*AuvZQ}W&if(ah2>bHkz&j3(tdvVbM%u(1$Tt`6$a)J24({T<DX|bpteT=1Vg$3
z0<U0cReFO~8TnV4rBFCA1Q730{86*T27Ao7+ZI<D-Pf15U!JZX?{CQ6{p#U%?UA2)
zK;P`t<MhpT!OE;I0!Hd8ib-r5@Xti<#z`XrU+jNo=3p#&SI~U#i<`9n64Czl@Ff&z
zP!|PDD|lehJzk3S#L9|=xBTa_Eh7su`3S>1XO7Wm7}|!|v+#nL(X`G<K!ZIa+bCY{
zhA}XQ>RM0$tRhQD7zGs!oao<^4zv6UgPG7A28efgc~JmzLcx;kt)G(t!Yo<LpghrH
z!RmjjbN&J!(G<JIfSZB_i+g|V$KJ)hgQ>(n?TCf&JeDsnQX{~Sg>@cB0qvS{Z$Q7|
zK7#T~ChbOg(rm?r4n{lCp+fIRUGgw+27dpof<XMBYlPex#sCT$){mCtA)q_U@mnQ9
z*W;AOQgaBpZxsYxV=wnd-QoLB73fu)A*X*8fjf5h<pjD8DKC0&{C{|zSErR>GEbSq
zw^@<UN;{9&J~qzeb+6o%Z+FdKhEeVi%>m|e{ps%R{`Zx!H$NBCT8laWu9CbuK%{mI
z1eM+iDtwCD{!VzRO@Lt2nvV+JXk0gwhP>axYwhYVANIfb$QHsqBOEC2j6ors^N@c9
zG=@m;7zjZdSjKsb-mAJ`5Q&~bfh1c3#Y*^PLDP_rJK8x)ALQqD76-zlQz)pSBjG~0
z>V+P_>T?MTD&;aTO47lysf-L&x4-ZKXa!R6CrB_BonS)QbHm<2O6CX$DszrOA<Q^N
z1T!K`7j=WsMcqJmQG@c0Y>$ZQ&iQ|Z9@W;tS8_5@;s>m{YIPp(1jUKjP^Zr$mw}Z0
zCuUt=Y#!|d#loqr5@)7$0;6OVi$()OYkJ!Ah{qsG+IE6<NTeC$Iuwnh?LrMwq3=!3
zONfM{<nNZt2K@T2*F1g+N6BCD%5^}lX<Ftnk3rP5qZ(-gP$O;hHBwZPW@>+gzR@VA
zuWiqG&b&yL>tm|<Gvkbicz(Ux6>LWh>zYRt^XK-~z!j)l2k4dyz2Que6-JEP$xQKV
z;|u{j%`<}PSL*k)+ylVb)?M6@7MuF+IEOyl$nB?|=Iua6ArS4-0}BBWeR6aM*cT26
zaS#QqgIetQpNp){7rMUt*3*CYJ&IQ`=s_0S;qkciGusU9r=C{mKtQtB1j{FTbx@1V
zx^9+P7uMhX$DXD=!g%GdBg$f1&{0#b?J=BQvvwW^uddQcgz@(yOSf*tlxiu*<?ZV3
z`qRUPtbV_Ke12Gw=a-L<&l}TN7lr=*>G{)!Y*t*u^=5T;`j4MBg8zT{db3%*JpFk(
z)?e0~`~3V)#T1O~m?ToxNkWUmd1(2ltYjpsE8ed-6Qg@QK9ln?E2|e4^TAJAHT)4P
zQECn|(Rs?RqlR%I{&O_o7GR4Aj8bf&#41xZ+CQmaUH(zC;y@Dq5-Ga32<u*hl+gy`
zpp@t-^m)p#mUaE<Cvt!L@#g%zZAnGx??|K=B~v27DvL4^TIrLh3KrBw8NH!&6`F#3
zAgAugyk7Z*UBIGlzfrTg>LCld27dA_EXFjXjhBg2b?2v2!j*NsQc-B~OGk1gqZ5I8
zQq+}V^tGO3IvwZ=-+iYCmS&q=k^2wz(9;PVSLE(HJ+M55;R=6!{89!FvLxwtXX)kv
z+E=V|0Nrb1OM1x*GD~@-+HEn&f;wTwP|qokg+QDTf&$)dT+dSSZ68&v%tbJEMPEtE
zzQs|>U`R@y^D9Bpp*9RBLSPac;ATzk^+0lgSJMU(2A;PdISf>rOK80l`2$d5i`$<0
z0g&~ijR?AeIDCK6S{z3&-*$z>btOw?T14U2QG_CMUJZjHbeYEW;ChTwk(4v|Ou>Zi
zIu++RJgDMDcH}xr&g4i16S^Z+oab<)iWkX|_X*uGME6PfXik%vFkL0HAvx%U9)6-_
z6d?LYMRB=$eBOK^zg(|>A-`Qee6r5=K=EQ_4<%VZ<Dh?zDN-I$Q_hW+fFhnT7qpD>
z3_URo3udNK_s6jF4R*DxqQJDGqH@MI;crpMGF%f%6qqKI$#6}GZNKvwPhmO4o`KAU
z)HCR(hscca@P!NW{PDJ{(xe@skoki`IN>T9SN&z%F(>oKLU8(3G#34lsC|iRzu#Y~
z3~muv&;x&Y6+IR*qwnjlQ;F{&RbBF|T_6y_OUj?ntjGiAeg=rzMLFS3)SzTWdk!L1
z#<xgS$VAoXB5-g}i*Bm5eZ@M-+P!ui=X;v+99KkvJ%W9RJqy&W?OzT*Kk9us*PQrb
zSC%@AvfH|7X8PgWAfv+iL4iMe`0K$nW5hd$<>`O%ZvFHE>xCgEybng`s2&(GA=!T&
zeP^)NKOw@~et?Z?`2i1t-No_oJN6Kz?181bY7b|BH8QLpG#q%1f`$;GWw_bXf(HDr
z7nU;-+ymG?Xt6=Pqh~?$kDe02Lw7OV?O6CZD?%{ONSL4=k<rmSAyXlEpc#Z*v$EQA
zX9s^Jm=~0|pq@}OV6`J^Hu%=0<tcL(R4<~x2JDb2FoH)U3bX>E;lnB=cQjx(;_O0L
zpG;ukJu)RgEh1Agq!J=%5X#2{7RML*vVm(PEMGjW?>@u2;e-h9fdMwE@drFec7LW(
zv5t}`rbSd8U_GG1hWCY%1=TA`MkN2N_cVWJux=SZ!h2%~j_QOV5ti*C=Rqcj2$sj6
z2buC9*<GBk^eFmW92VC8GBUg$6db7jQ1Bu81*@%4VdMDbylsV&5y?NFDgQH}#aCF@
zOkm-?G9^HD$dnA;7Y{Vu)tu@6b}i1b2XlrJ7t|YS1}t}|+2H;0NZ+HRP7vnSHOPOU
zKGAWYO^E0S5oSc5S&_%=9kMZ*LW2520!MR##Drn}eL+hmHl?N^FKjO?pm7Z62t7Ki
zPYgU*HJ6DKzW!S0EQn})TvLIYU)Lam`bWosR&;cP2qmbY+D0tAi&z}Ox@7_j?~^G3
zR$)<+A(awA^VG)*p}0gw$MKAU2i<=`3Qhz+Raq`pBLQo%F(Rx#CfH~`nD8Ljz20u4
zcQ~UD;9xC21V%IWkObb=V$gpbfQE`pAwg{}fn(WSBEqqKd!W!Q%UK$-G&q2IK@AS>
z4-E~bXEc;JJ^~(!Pa(nmah}1q#Dvgm-DF=`%G-K4+m8TYEkA}v%l%^-_#A)VY%M^D
zkW%7;dO*#9<p?z!mOl_8q}0F&9<fA7VVereC*XT96sYjtIMW^s6&I2p?h2Z)5^2TH
z!T|3d0~e~V47^Bwd(1@MfL(Y}1H*esrs$osjk9lOph3w4GTpgce_67s&PkGmEXH7Y
zq1y^Albyg(GunU#JF^X_FdTma8bLWhgm=LiA}FUkNX71BP+S*`B6K5VWOzR)I8gne
z;1h?k@}I(PTQw33lJ{R&nZ-4Hk9CR*?|F#<)$bA;l0P<dw-bSIMV7RkFIcx|;NiWa
zBSLkOjugpP@bPLYSa{!@D_%`W2JZ{8?u4+pRRs&`3nc;C%&d|PVRnDESp|fgogD*$
zd!W?K&Z5}_!|HT!$_Q~dndQRF<bKwRUXeI+fP~#-4{<rCWT7Ypq(xPlY)P3G#C~Xp
zholjpMNk=iXT)}dg@={_oL)(LCIM+q<&T>+9O8Pq!$N5qSgpjMkBQ>_?Y<@>?&lmV
zQ>h2m>fE-Q*88g(tlNM5mkE;rwSwBSz36dWg1BvbU#3e9YSY$C(37SV6US}fKJp|~
zi@vS64I>bHdWq9^Xb){uOc!Oc-L#v7J(bO{Sz2zt5!)tN4><!ki;|p1g*cnBo5CjU
zJ4ij`DS<6QOR+1EST|65s2bwg#0**`?S?`hDGsettE9PcCFy@Qi4oVmb{^6cur3lc
zS<Ji)<tcM+7W>u@$cWS4D-U&3Os%lE+et&Bkd$JonYe95TBc16suh>C`$<&&BJ0ka
zWde1uT8a5_w*|58Oj#yL!qaPM_7;#`zqx>S)x_=sGH27qLX8G!t=zJWwkOA~<*{#M
z-L|kyr4H7tP=tRsb73qFiBs&phqfuEgRs-UQzg(8(C(>I0j-x?W%;N>u8rhgC~5+y
z7t#dp5@THRLJ31GEq~Ke(O@`u(g*x56C&Z6#dNoKhR4WFG9wsvxk3%HS?jn3&_{wU
zm*rOHS0dz3lssYyi(DvVjHZ>*o^dRXEG+?p%S5R`ZQ6enBTHNOoR2*Bk!5#2^kj<6
z7)ItH%yo*aRkdx_PjtOn=MXCoy#{!T_N0kf822P?!9^ZIWz;$P3c9Vxi~toFp#x-#
z*x?{v8>itR%4HDWD#?O^(1KA#Q8vXecxY3=S~M2NWn$vC%I={~0<~zX+SSqa>e#M)
z&suu+(5ipKwn&!7s^)c94}s2ORndi1Oh20!A(shLVj6{&!w!LNC2qNx($pc?ovxME
zUM<kQW4&9TfA3dz_>IOjldi1(n;CirrrUzzVsw|QeVoCcX!HhZiy<JeAx6-kR`|*e
z<W1O^ShLB6g~m1C>BXcXnZ)d%r7A{fvV=IJA>n_2Sgv5!+A}#`)~+qD?JL&e+P&5+
zHQwDNIoo|M#82V$KKQ>G85TghWm;d788Iu4R5vt^UU@%;{o@+UMiS=b?dtCO)5C_`
zKRtiikj?7x`QdtFy{OZh?&GJ8;CsH_Y*sH%=yd<M=2Z7D=S$zq>TdP2db(Mik8=HG
z&AETb^UKG_=M5SgWMPugU+X9iIYVAoI0QK@N=CA}!ec<J2x?Xw5bA;x?3pstfDp|g
zeCU&BY02R2HAX&<$tIlOR@+A@E7?t!zOkZ$GnoPwwgyoV%!!?I<%t<hZ?gPQM7uqp
zeH5^;_E8aF*=Lo|D2BDo021CVLvSpc{K9`<f;Gtr5#AyLY%GJ^=dkAJ@!*YdM8-13
zLzI3kVXZNMgg3|#9Kj~5_nfADI29Bbm{BB5P^-x3C}ycd6hONWdEIv@04=14KXz^S
zDD9;mt3eNFoCMsi9zQ+-j~1PXQHI4%%%kq)Srxz*5d#r)FV;*3J}w*4y|B1hI>mn}
zm}B%~9=YLp<6*VA=Vjw|^>F`q&x;2}4$;y-ZSJ2wtzgGIF3c-Vy!nDzA()9bU!GU%
zGt%DQk%x~TpU-dTGgLns=9ksY$CukbC11a+cv|mq8ypSw<`XZ_XH7I(Z9n0mVMr2Q
z0n;6J<$D>6!7eH2j<EJEvFd@$iQ0dbO}WsTvNx7i;4Rn*^gP`v1s}?CgMklYE>J;-
zQFaILSb2I#fi__Jl^sO519Wa4!Je@rrsl=W*J?)84#AibA$N}nkn;D01go-sih{2x
zO~9uD#<*vxvNe>Lxm!btSaDAn5pws00V#V=S+Mf=y3X^gsM>9IuvuJ!K1+Wt*Rvw#
zI++w9<H;oOx#BK*|CB~S7Q$6{Q%F$LNZ<%vou66C+Ta5bHM@GJNggw}B?S}wX-4Gt
zYti?CE;CNtD5cej8Kr4*VnzyOa^l9Qr;Nmq1=2_a9C&2pf^L`1WZ)I?m=3gg)<GlY
zgJGM6>K8@h2-p%do9Taw>jHnw7ZXHK7fi9?Gik$cLvt}})@>^J`FZpA-(bz7C4je<
zo(d~Bofxr<hHoom6WvDJZCygH`l(>y4KyXdvX3|n2)<GpqrzKff{#==b=%!wO)~<8
zx6BwG-Y`#bPV3zYt~iYWK@Bp2Mkqp@AqeR|_mI{Y076@12#sKkkGy|QPonRTyJ4n~
zxZ_GK8_HNx%Z4<5)be4B86`5vtSo^8j}0Y!=y8Wk0A5iaDL{9mC{WLnjS%;v^c>*Z
zQPjX^u@~}Y6mclxbHTQ(U}*qnFcmCrjc;T`sr8MF7+FF|2w58|34m*4CC52(HA2n&
zEOvR<O|;NcRwOizzQcdUrJ4y~eQ%~h=wv=0`1j%%4Zvz=0tsuODfk&|f{|$(iU*p!
zh7{QFLr?_MkKoaauVjHUe;;0WAGW9Lfw@2pjN9m1ILFQInaNT2bZEFC^Sp)vx~bIB
zAY}X`dt*OEuW^*^3YzaBv%VS{*dH1agqo=3y2+A+JEa7+(-?mi!A27TH2eJ0T=E8N
zogpZKZAS2DmU+n1U2{MfuyH212=<vWoXbR)<vy$VIOi*4If?nR=CTktx~DAd&rj%2
znvQ{;qo+XdlYtD)W#a5TTCI82B1U!4d0UB&U^z7pn$fzmxdY)QXp<?h5e%kcK{MBe
zzQznR&PIugV5Wa51Dc7NTJv*M?eEhdD+(q;QeR8nrA~Ly8O%<FU`PkjKhd_MhN?OI
z^c#Pj8=-rjl*bQXWaV*l|B<M!APa>I3+ze-0fO85dVHP75uAAxsG!zS;UgGF)J8Y^
zI{gY}m<b}NQKs199_i-1^+5bsVo>1Q{F2uRbx}rdEIxm<34tJKj%Xf7$u);{g8A7@
z0P1!N6@rTtjO`)ZnC2TYVB2rRbsht*>m;E?^c`?Mz<~wZkP_c{jM?5!fM~}70k#Q;
zR9M#Qc4lD|Vg)q3#Z)Bl6Ts~)A}GgE>!9IHb)Ms>TPo;)UIi+Gfv^L5ySp};(Ncd&
z1gwda;P8KzQq!OrOxzwixC{x}WJ>tU_2%Vzv-<f9(6XD63&BBZB2*WhZjr(8&=eiZ
zXc7;S&6)x1Plx_4Em)H&!Qm~Yrorl~sM$*KD`_tI;gpBtC1}vJzp_Kq%Rq6|7#z(}
z6B;p1(3($NgwovOgv^MXHP!)3aU3*2M)S^)gT8;!I1<z1BxDt@#IvG=Y={($NY&in
zx-Nuy7BxD&hcrC+Hp3X0Y2Z<<hCD#~ypJkY=DY)s6U}PG2Q{3T38DU^B0rPuRtyfw
zw{~<$oUdWJF!Rp6-bt%6=x?|ne^6q-`DmFe8PG+K*cC#Y?qKm%HNbQbR&?7hi0hRn
zp7MVtuzH1U@C6Cl+c=2R-69LMsWA1z#Od{1R(A~sak|uFp)eJuMHmzJP!Q`)8Xkg%
zcos1Ni`Z_k@Q^ZqvnYvjV!k-SL&Xuyq9GPn9uVuL4IWB{cv>;6xoCjv2#So@uS-}a
zM+P+LX(ng;OWBW|S2F9)f~7JI*sh9;F2aA9%sI*(K<@<FE>|3tN*oU9_0u*$v`YHg
zo^DB;PFwYoHO90GOS^LkiQ6%mUeYF@R&8Z_Kwi6c?|jUmmqZy?t8yE?le#^tj#y9I
zTP8}v(~8-3rzVO1U~>&M>khOcvktvmCew)RE_vu?`*B$iQeE5}i6cD7Yg`w^c4~jr
zGD%Z7i<02DDB4<Wmsfv(BQp<h@=&TrcNgw<U=oN(H*H~mv=4DQsK`Uv6w@MX%SXO)
z=F=@Gdgz)!T4eP%-a8!4<DqGcsFjp9XUgzS3b7oBvrNha%_JiTDfzx9mXl}}%NU|*
zWn|rP1B00X{UI>Rq)2!UVusTK#&dr#JSDkI3LI5U=LBrWPWWkaoe{`sRFM3*>76(o
z@UTpp5>qeiw6mO~!|6COa~u6av1W9=>}EGG*+%inmf9Wb3#Co*Y+~YOZ!&S%$?YR(
zgs7Et9M(nM&QapH!+DuB4XQz&h^`>7gZ-Msc_->pi5gs+$e`OWNu0KS`iOs<VA_Q3
zo85}UVb`UPs1c$~(s6Iz#9G=dk3Pz#pf+(SFAm3<*?wOfnY|IvN3sFmroL!)rjfGW
znnvdAzVp$nhPKHqyM1Aer6*#IyWV`Hs(@`mt7Zv$I8L?fHS-ZT1+|H5i;{K^5m~(T
z%O?>IJce{NJAcH=NHv(yGjD%nS}In7sTJ0jt1eo^WdqSNSt>}as?!b^V%xQ|OwANd
ztE7oOk|rwJmDQR1PL?UPpwATEL;{s$?w$`Y=_B}=+RNj<1F~ex1y~v+ikazXf1SC}
z0Zjc6-6Fi7yH;cx<K_YnttwoLN@-fj7^m)`&2?I-lcfy1ux~f;5jcM*?4niKx3_(~
zH<=O7?x9qTY}G1)cnNJnpGgx6N@hiqdkI!!yGbsNfyZP{Y_+#u3ECpJ?E?%VZOM$V
zW)HP$WLL4r2v;&Aw%1?n1ld(>DFQQzYlN%6%pt5rV?PtF>EhVpJw3E)py%jSG*Z@J
zOBls&jn%hf^q+dZ(J_C{ahYT@xU9KkaTA%`L?LEj9kUOA{h)iPWo}=)_=^GU@~&Wi
z)O-+d=mxATyo*>It_N(oXwEU24~tt&Cm>%J*$GAWLer3ULSbz-1_d|K1RmZZJBFI2
z3=9~y(sBVCZj<F-QSGKD05_X~3fOAfzP$I7eY|_W6@+AdMR$K;Q?j@&H6);DN+Yq>
zD9go75Y1Y4Om9f1qV1(q3vUoz@w}$j>{6<hOE#d76<1jnm)Zurd1`FA`MAOGee=}x
z{fDv&ufi;tCRKbgVWKIG4`o#9KIxyEzP-`{#`KlNM#w$|N(j}DBLzX0Zlj$}d;3(S
zynS+|fl{g-fT@2pcc05YO?V5YS6eW()`DFrK{Pr$7`00N>GTJg?cXl&QTSgU{yqA3
zEBd#UE`9A&RSMfDR~jg#i~*P`o!#g1Pt$ruCsq`Dg;Mb|AAA&SM@6AGe0+M#j&o(9
zP+CAiqO!yUPX9>KC)S{|)Re~d4PE-$r&k78ZMp`)x-@@vFzTNrEg=hQJ|qupUK_rr
zOV{w7D=U#UjS`hEr6WkwLrLj2iYsPJZ~KNWrR~!z1FSZ617KacIvDlOl9pYO)www_
z-7C7(bdRr0$lCM_v2_XRfi%BsCMQfO8q6+eCpWGPu-fDdr!6$8>0s19>nAM?sTp;$
z3|+h{Be;JyP0A?|EtKxTRMnNL!O&_jP*2}g^cOX@J9QUTz04~$j#8rB@svN7eo=Hx
zH9}AQQdM{MN{yowD)(^ZkELIRlvmT<u#!eYFns5S9ZRD$Wbb2?{?|6O_u|hVPOo*g
z8NBhC#k^@^AF8YYzi7e#?|=T6ry~n$5rWms3jTjbi*m*P%U>uz@Uh&7CR$`-tP}K)
z-K!V;)r;=c`@z>u_($2nRyEJ!5skHA#}_u;AKi!Fl=}a3s$PrReScA97lZFF%8SwW
zGt9)jrf^Gsxac3Wc7JTgPpyMmPmi*1_fz}w(Cys=eLfm~`Qt$B2xXwhBD4*(9P2F^
aErJyN_`~+M_M3J4{F(095C0FWrHmJ_q)~MM

diff --git a/py-modindex.html b/py-modindex.html
index 998aa07fd..4170cba8b 100644
--- a/py-modindex.html
+++ b/py-modindex.html
@@ -11,7 +11,7 @@
 
   
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <link rel="index" title="Index" href="genindex.html" />
@@ -42,16 +42,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
@@ -99,21 +99,146 @@ <h1>Python Module Index</h1>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.analysis.html#module-data_juicer.analysis"><code class="xref">data_juicer.analysis</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.collector"><code class="xref">data_juicer.analysis.collector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.column_wise_analysis"><code class="xref">data_juicer.analysis.column_wise_analysis</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.diversity_analysis"><code class="xref">data_juicer.analysis.diversity_analysis</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.draw"><code class="xref">data_juicer.analysis.draw</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.measure"><code class="xref">data_juicer.analysis.measure</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.analysis.html#module-data_juicer.analysis.overall_analysis"><code class="xref">data_juicer.analysis.overall_analysis</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.config.html#module-data_juicer.config"><code class="xref">data_juicer.config</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.config.html#module-data_juicer.config.config"><code class="xref">data_juicer.config.config</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.core.html#module-data_juicer.core"><code class="xref">data_juicer.core</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.adapter"><code class="xref">data_juicer.core.adapter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.analyzer"><code class="xref">data_juicer.core.analyzer</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.data"><code class="xref">data_juicer.core.data</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.executor"><code class="xref">data_juicer.core.executor</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.exporter"><code class="xref">data_juicer.core.exporter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.monitor"><code class="xref">data_juicer.core.monitor</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.ray_data"><code class="xref">data_juicer.core.ray_data</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.ray_executor"><code class="xref">data_juicer.core.ray_executor</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.core.html#module-data_juicer.core.tracer"><code class="xref">data_juicer.core.tracer</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.format.html#module-data_juicer.format"><code class="xref">data_juicer.format</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.csv_formatter"><code class="xref">data_juicer.format.csv_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.empty_formatter"><code class="xref">data_juicer.format.empty_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.formatter"><code class="xref">data_juicer.format.formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.json_formatter"><code class="xref">data_juicer.format.json_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.load"><code class="xref">data_juicer.format.load</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.mixture_formatter"><code class="xref">data_juicer.format.mixture_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.parquet_formatter"><code class="xref">data_juicer.format.parquet_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.text_formatter"><code class="xref">data_juicer.format.text_formatter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.format.html#module-data_juicer.format.tsv_formatter"><code class="xref">data_juicer.format.tsv_formatter</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
@@ -124,16 +249,91 @@ <h1>Python Module Index</h1>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator"><code class="xref">data_juicer.ops.aggregator</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.entity_attribute_aggregator"><code class="xref">data_juicer.ops.aggregator.entity_attribute_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.most_relavant_entities_aggregator"><code class="xref">data_juicer.ops.aggregator.most_relavant_entities_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.aggregator.html#module-data_juicer.ops.aggregator.nested_aggregator"><code class="xref">data_juicer.ops.aggregator.nested_aggregator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops.base_op"><code class="xref">data_juicer.ops.base_op</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.ops.common.html#module-data_juicer.ops.common"><code class="xref">data_juicer.ops.common</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common.helper_func"><code class="xref">data_juicer.ops.common.helper_func</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.common.html#module-data_juicer.ops.common.special_characters"><code class="xref">data_juicer.ops.common.special_characters</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
        <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator"><code class="xref">data_juicer.ops.deduplicator</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_minhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_minhash_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.document_simhash_deduplicator"><code class="xref">data_juicer.ops.deduplicator.document_simhash_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.image_deduplicator"><code class="xref">data_juicer.ops.deduplicator.image_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_basic_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_basic_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_document_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_document_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_image_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_image_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.ray_video_deduplicator"><code class="xref">data_juicer.ops.deduplicator.ray_video_deduplicator</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.deduplicator.html#module-data_juicer.ops.deduplicator.video_deduplicator"><code class="xref">data_juicer.ops.deduplicator.video_deduplicator</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
@@ -142,27 +342,702 @@ <h1>Python Module Index</h1>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper"><code class="xref">data_juicer.ops.grouper</code></a></td><td>
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.alphanumeric_filter"><code class="xref">data_juicer.ops.filter.alphanumeric_filter</code></a></td><td>
        <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper"><code class="xref">data_juicer.ops.mapper</code></a></td><td>
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_duration_filter"><code class="xref">data_juicer.ops.filter.audio_duration_filter</code></a></td><td>
        <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector"><code class="xref">data_juicer.ops.selector</code></a></td><td>
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_nmf_snr_filter"><code class="xref">data_juicer.ops.filter.audio_nmf_snr_filter</code></a></td><td>
        <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.tools.html#module-data_juicer.tools"><code class="xref">data_juicer.tools</code></a></td><td>
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.audio_size_filter"><code class="xref">data_juicer.ops.filter.audio_size_filter</code></a></td><td>
        <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
-       <a href="data_juicer.utils.html#module-data_juicer.utils"><code class="xref">data_juicer.utils</code></a></td><td>
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.average_line_length_filter"><code class="xref">data_juicer.ops.filter.average_line_length_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.character_repetition_filter"><code class="xref">data_juicer.ops.filter.character_repetition_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.flagged_words_filter"><code class="xref">data_juicer.ops.filter.flagged_words_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aesthetics_filter"><code class="xref">data_juicer.ops.filter.image_aesthetics_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_aspect_ratio_filter"><code class="xref">data_juicer.ops.filter.image_aspect_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_count_filter"><code class="xref">data_juicer.ops.filter.image_face_count_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_face_ratio_filter"><code class="xref">data_juicer.ops.filter.image_face_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_nsfw_filter"><code class="xref">data_juicer.ops.filter.image_nsfw_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_pair_similarity_filter"><code class="xref">data_juicer.ops.filter.image_pair_similarity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_shape_filter"><code class="xref">data_juicer.ops.filter.image_shape_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_size_filter"><code class="xref">data_juicer.ops.filter.image_size_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_matching_filter"><code class="xref">data_juicer.ops.filter.image_text_matching_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_text_similarity_filter"><code class="xref">data_juicer.ops.filter.image_text_similarity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.image_watermark_filter"><code class="xref">data_juicer.ops.filter.image_watermark_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.language_id_score_filter"><code class="xref">data_juicer.ops.filter.language_id_score_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.maximum_line_length_filter"><code class="xref">data_juicer.ops.filter.maximum_line_length_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.perplexity_filter"><code class="xref">data_juicer.ops.filter.perplexity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.phrase_grounding_recall_filter"><code class="xref">data_juicer.ops.filter.phrase_grounding_recall_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.special_characters_filter"><code class="xref">data_juicer.ops.filter.special_characters_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_field_filter"><code class="xref">data_juicer.ops.filter.specified_field_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.specified_numeric_field_filter"><code class="xref">data_juicer.ops.filter.specified_numeric_field_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.stopwords_filter"><code class="xref">data_juicer.ops.filter.stopwords_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.suffix_filter"><code class="xref">data_juicer.ops.filter.suffix_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_action_filter"><code class="xref">data_juicer.ops.filter.text_action_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_entity_dependency_filter"><code class="xref">data_juicer.ops.filter.text_entity_dependency_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.text_length_filter"><code class="xref">data_juicer.ops.filter.text_length_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.token_num_filter"><code class="xref">data_juicer.ops.filter.token_num_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aesthetics_filter"><code class="xref">data_juicer.ops.filter.video_aesthetics_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_aspect_ratio_filter"><code class="xref">data_juicer.ops.filter.video_aspect_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_duration_filter"><code class="xref">data_juicer.ops.filter.video_duration_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_frames_text_similarity_filter"><code class="xref">data_juicer.ops.filter.video_frames_text_similarity_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_filter"><code class="xref">data_juicer.ops.filter.video_motion_score_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_motion_score_raft_filter"><code class="xref">data_juicer.ops.filter.video_motion_score_raft_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_nsfw_filter"><code class="xref">data_juicer.ops.filter.video_nsfw_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_ocr_area_ratio_filter"><code class="xref">data_juicer.ops.filter.video_ocr_area_ratio_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_resolution_filter"><code class="xref">data_juicer.ops.filter.video_resolution_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_tagging_from_frames_filter"><code class="xref">data_juicer.ops.filter.video_tagging_from_frames_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.video_watermark_filter"><code class="xref">data_juicer.ops.filter.video_watermark_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.word_repetition_filter"><code class="xref">data_juicer.ops.filter.word_repetition_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.filter.html#module-data_juicer.ops.filter.words_num_filter"><code class="xref">data_juicer.ops.filter.words_num_filter</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper"><code class="xref">data_juicer.ops.grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.key_value_grouper"><code class="xref">data_juicer.ops.grouper.key_value_grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.grouper.html#module-data_juicer.ops.grouper.naive_grouper"><code class="xref">data_juicer.ops.grouper.naive_grouper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops.load"><code class="xref">data_juicer.ops.load</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper"><code class="xref">data_juicer.ops.mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper"><code class="xref">data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_qa_mapper"><code class="xref">data_juicer.ops.mapper.calibrate_qa_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_query_mapper"><code class="xref">data_juicer.ops.mapper.calibrate_query_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.calibrate_response_mapper"><code class="xref">data_juicer.ops.mapper.calibrate_response_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.chinese_convert_mapper"><code class="xref">data_juicer.ops.mapper.chinese_convert_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_copyright_mapper"><code class="xref">data_juicer.ops.mapper.clean_copyright_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_email_mapper"><code class="xref">data_juicer.ops.mapper.clean_email_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_html_mapper"><code class="xref">data_juicer.ops.mapper.clean_html_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_ip_mapper"><code class="xref">data_juicer.ops.mapper.clean_ip_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.clean_links_mapper"><code class="xref">data_juicer.ops.mapper.clean_links_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.expand_macro_mapper"><code class="xref">data_juicer.ops.mapper.expand_macro_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_attribute_mapper"><code class="xref">data_juicer.ops.mapper.extract_entity_attribute_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_entity_relation_mapper"><code class="xref">data_juicer.ops.mapper.extract_entity_relation_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_event_mapper"><code class="xref">data_juicer.ops.mapper.extract_event_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_keyword_mapper"><code class="xref">data_juicer.ops.mapper.extract_keyword_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_nickname_mapper"><code class="xref">data_juicer.ops.mapper.extract_nickname_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.extract_support_text_mapper"><code class="xref">data_juicer.ops.mapper.extract_support_text_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.fix_unicode_mapper"><code class="xref">data_juicer.ops.mapper.fix_unicode_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_examples_mapper"><code class="xref">data_juicer.ops.mapper.generate_qa_from_examples_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.generate_qa_from_text_mapper"><code class="xref">data_juicer.ops.mapper.generate_qa_from_text_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_blur_mapper"><code class="xref">data_juicer.ops.mapper.image_blur_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper"><code class="xref">data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_captioning_mapper"><code class="xref">data_juicer.ops.mapper.image_captioning_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_diffusion_mapper"><code class="xref">data_juicer.ops.mapper.image_diffusion_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_face_blur_mapper"><code class="xref">data_juicer.ops.mapper.image_face_blur_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.image_tagging_mapper"><code class="xref">data_juicer.ops.mapper.image_tagging_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpaug_en_mapper"><code class="xref">data_juicer.ops.mapper.nlpaug_en_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.nlpcda_zh_mapper"><code class="xref">data_juicer.ops.mapper.nlpcda_zh_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_qa_mapper"><code class="xref">data_juicer.ops.mapper.optimize_qa_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_query_mapper"><code class="xref">data_juicer.ops.mapper.optimize_query_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.optimize_response_mapper"><code class="xref">data_juicer.ops.mapper.optimize_response_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.pair_preference_mapper"><code class="xref">data_juicer.ops.mapper.pair_preference_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.punctuation_normalization_mapper"><code class="xref">data_juicer.ops.mapper.punctuation_normalization_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_file_mapper"><code class="xref">data_juicer.ops.mapper.python_file_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.python_lambda_mapper"><code class="xref">data_juicer.ops.mapper.python_lambda_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.relation_identity_mapper"><code class="xref">data_juicer.ops.mapper.relation_identity_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_bibliography_mapper"><code class="xref">data_juicer.ops.mapper.remove_bibliography_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_comments_mapper"><code class="xref">data_juicer.ops.mapper.remove_comments_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_header_mapper"><code class="xref">data_juicer.ops.mapper.remove_header_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_long_words_mapper"><code class="xref">data_juicer.ops.mapper.remove_long_words_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_non_chinese_character_mapper"><code class="xref">data_juicer.ops.mapper.remove_non_chinese_character_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_repeat_sentences_mapper"><code class="xref">data_juicer.ops.mapper.remove_repeat_sentences_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_specific_chars_mapper"><code class="xref">data_juicer.ops.mapper.remove_specific_chars_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_table_text_mapper"><code class="xref">data_juicer.ops.mapper.remove_table_text_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"><code class="xref">data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.replace_content_mapper"><code class="xref">data_juicer.ops.mapper.replace_content_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.sentence_split_mapper"><code class="xref">data_juicer.ops.mapper.sentence_split_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.text_chunk_mapper"><code class="xref">data_juicer.ops.mapper.text_chunk_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_audio_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_audio_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_frames_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_frames_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_summarizer_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_captioning_from_video_mapper"><code class="xref">data_juicer.ops.mapper.video_captioning_from_video_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_extract_frames_mapper"><code class="xref">data_juicer.ops.mapper.video_extract_frames_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_face_blur_mapper"><code class="xref">data_juicer.ops.mapper.video_face_blur_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper"><code class="xref">data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_remove_watermark_mapper"><code class="xref">data_juicer.ops.mapper.video_remove_watermark_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper"><code class="xref">data_juicer.ops.mapper.video_resize_aspect_ratio_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_resize_resolution_mapper"><code class="xref">data_juicer.ops.mapper.video_resize_resolution_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_duration_mapper"><code class="xref">data_juicer.ops.mapper.video_split_by_duration_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_key_frame_mapper"><code class="xref">data_juicer.ops.mapper.video_split_by_key_frame_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_split_by_scene_mapper"><code class="xref">data_juicer.ops.mapper.video_split_by_scene_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_audio_mapper"><code class="xref">data_juicer.ops.mapper.video_tagging_from_audio_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.video_tagging_from_frames_mapper"><code class="xref">data_juicer.ops.mapper.video_tagging_from_frames_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.mapper.html#module-data_juicer.ops.mapper.whitespace_normalization_mapper"><code class="xref">data_juicer.ops.mapper.whitespace_normalization_mapper</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.html#module-data_juicer.ops.op_fusion"><code class="xref">data_juicer.ops.op_fusion</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector"><code class="xref">data_juicer.ops.selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.frequency_specified_field_selector"><code class="xref">data_juicer.ops.selector.frequency_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.random_selector"><code class="xref">data_juicer.ops.selector.random_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.range_specified_field_selector"><code class="xref">data_juicer.ops.selector.range_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.ops.selector.html#module-data_juicer.ops.selector.topk_specified_field_selector"><code class="xref">data_juicer.ops.selector.topk_specified_field_selector</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.tools.html#module-data_juicer.tools"><code class="xref">data_juicer.tools</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils"><code class="xref">data_juicer.utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.asset_utils"><code class="xref">data_juicer.utils.asset_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_mapping"><code class="xref">data_juicer.utils.auto_install_mapping</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.auto_install_utils"><code class="xref">data_juicer.utils.auto_install_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.availability_utils"><code class="xref">data_juicer.utils.availability_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.cache_utils"><code class="xref">data_juicer.utils.cache_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.ckpt_utils"><code class="xref">data_juicer.utils.ckpt_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.common_utils"><code class="xref">data_juicer.utils.common_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.compress"><code class="xref">data_juicer.utils.compress</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.constant"><code class="xref">data_juicer.utils.constant</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.file_utils"><code class="xref">data_juicer.utils.file_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.fingerprint_utils"><code class="xref">data_juicer.utils.fingerprint_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.lazy_loader"><code class="xref">data_juicer.utils.lazy_loader</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.logger_utils"><code class="xref">data_juicer.utils.logger_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.mm_utils"><code class="xref">data_juicer.utils.mm_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.model_utils"><code class="xref">data_juicer.utils.model_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.process_utils"><code class="xref">data_juicer.utils.process_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.registry"><code class="xref">data_juicer.utils.registry</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.resource_utils"><code class="xref">data_juicer.utils.resource_utils</code></a></td><td>
+       <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="data_juicer.utils.html#module-data_juicer.utils.unittest_utils"><code class="xref">data_juicer.utils.unittest_utils</code></a></td><td>
        <em></em></td></tr>
    </table>
 
diff --git a/search.html b/search.html
index aef431107..54cd1a5e9 100644
--- a/search.html
+++ b/search.html
@@ -12,7 +12,7 @@
   
     
       <script src="_static/documentation_options.js?v=1ed6394b"></script>
-      <script src="_static/doctools.js?v=9bcbadda"></script>
+      <script src="_static/doctools.js?v=9a2dae69"></script>
       <script src="_static/sphinx_highlight.js?v=dc90522c"></script>
     <script src="_static/js/theme.js"></script>
     <script src="_static/searchtools.js"></script>
@@ -42,16 +42,16 @@
         </div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
               <p class="caption" role="heading"><span class="caption-text">API Reference</span></p>
 <ul>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config</a></li>
-<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.core.html">data_juicer.core package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.html">data_juicer.ops package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.filter.html">data_juicer.ops.filter package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.mapper.html">data_juicer.ops.mapper package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.deduplicator.html">data_juicer.ops.deduplicator package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.selector.html">data_juicer.ops.selector package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.ops.common.html">data_juicer.ops.common package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.analysis.html">data_juicer.analysis package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.config.html">data_juicer.config package</a></li>
+<li class="toctree-l1"><a class="reference internal" href="data_juicer.format.html">data_juicer.format package</a></li>
 </ul>
 
         </div>
diff --git a/searchindex.js b/searchindex.js
index b3525d3ee..c89e82d51 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"alltitles": {"API Reference": [[15, null]], "Indices and Tables": [[15, "indices-and-tables"]], "Tutorial": [[15, "tutorial"]], "Welcome to data-juicer\u2019s documentation!": [[15, null]], "data_juicer": [[0, null], [16, null]], "data_juicer.analysis": [[1, null]], "data_juicer.config": [[2, null]], "data_juicer.core": [[3, null]], "data_juicer.format": [[4, null]], "data_juicer.ops": [[5, null]], "data_juicer.ops.aggregator": [[6, null]], "data_juicer.ops.common": [[7, null]], "data_juicer.ops.deduplicator": [[8, null]], "data_juicer.ops.filter": [[9, null]], "data_juicer.ops.grouper": [[10, null]], "data_juicer.ops.mapper": [[11, null]], "data_juicer.ops.selector": [[12, null]], "data_juicer.tools": [[13, null]], "data_juicer.utils": [[14, null]], "}": [[3, "id1"], [3, "id2"]]}, "docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.aggregator", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.grouper", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "index", "modules"], "envversion": {"sphinx": 64, "sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1}, "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.aggregator.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.grouper.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.tools.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "indexentries": {"__init__() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.__init__", false]], "__init__() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.__init__", false]], "__init__() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.__init__", false]], "__init__() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.__init__", false]], "__init__() (data_juicer.core.analyzer method)": [[3, "data_juicer.core.Analyzer.__init__", false]], "__init__() (data_juicer.core.executor method)": [[3, "data_juicer.core.Executor.__init__", false]], "__init__() (data_juicer.core.exporter method)": [[3, "data_juicer.core.Exporter.__init__", false]], "__init__() (data_juicer.core.monitor method)": [[3, "data_juicer.core.Monitor.__init__", false]], "__init__() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.__init__", false]], "__init__() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.__init__", false]], "__init__() (data_juicer.format.csvformatter method)": [[4, "data_juicer.format.CsvFormatter.__init__", false]], "__init__() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.__init__", false]], "__init__() (data_juicer.format.jsonformatter method)": [[4, "data_juicer.format.JsonFormatter.__init__", false]], "__init__() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.__init__", false]], "__init__() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.__init__", false]], "__init__() (data_juicer.format.parquetformatter method)": [[4, "data_juicer.format.ParquetFormatter.__init__", false]], "__init__() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.__init__", false]], "__init__() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.__init__", false]], "__init__() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.__init__", false]], "__init__() (data_juicer.format.tsvformatter method)": [[4, "data_juicer.format.TsvFormatter.__init__", false]], "__init__() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.__init__", false]], "__init__() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.__init__", false]], "__init__() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.__init__", false]], "__init__() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.__init__", false]], "__init__() (data_juicer.ops.grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.KeyValueGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.NaiveGrouper.__init__", false]], "__init__() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.__init__", false]], "__init__() (data_juicer.ops.mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.CleanEmailMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.CleanIpMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.CleanLinksMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.ImageBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.__init__", false]], "__init__() (data_juicer.ops.selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.randomselector method)": [[12, "data_juicer.ops.selector.RandomSelector.__init__", false]], "__init__() (data_juicer.ops.selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__", false]], "adapt_workloads() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.adapt_workloads", false]], "adapter (class in data_juicer.core)": [[3, "data_juicer.core.Adapter", false]], "add_column() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.add_column", false]], "add_message() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message", false]], "aggregator (class in data_juicer.ops)": [[5, "data_juicer.ops.Aggregator", false]], "alphanumericfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AlphanumericFilter", false]], "analyze() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.analyze", false]], "analyze() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.analyze", false]], "analyze() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.analyze", false]], "analyze_resource_util_list() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.analyze_resource_util_list", false]], "analyze_single_resource_util() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.analyze_single_resource_util", false]], "analyze_small_batch() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.analyze_small_batch", false]], "analyzer (class in data_juicer.core)": [[3, "data_juicer.core.Analyzer", false]], "attribute_summary() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary", false]], "audiodurationfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioDurationFilter", false]], "audioffmpegwrappedmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper", false]], "audionmfsnrfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter", false]], "audiosizefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioSizeFilter", false]], "avaliable_detectors (data_juicer.ops.mapper.videosplitbyscenemapper attribute)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors", false]], "averagelinelengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter", false]], "batch_size_strategy() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.batch_size_strategy", false]], "build_input() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.build_input", false]], "calculate_hash() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash", false]], "calibrateqamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper", false]], "calibratequerymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper", false]], "calibrateresponsemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper", false]], "characterrepetitionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter", false]], "chineseconvertmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper", false]], "cleancopyrightmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper", false]], "cleanemailmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanEmailMapper", false]], "cleanhtmlmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper", false]], "cleanipmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanIpMapper", false]], "cleanlinksmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanLinksMapper", false]], "cleanup_cache_files() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.cleanup_cache_files", false]], "columnwiseanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.ColumnWiseAnalysis", false]], "compute() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.compute", false]], "compute_flow() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow", false]], "compute_hash() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash", false]], "compute_stats_batched() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.compute_stats_batched", false]], "compute_stats_single() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single", false]], "csvformatter (class in data_juicer.format)": [[4, "data_juicer.format.CsvFormatter", false]], "cuda_device_count() (in module data_juicer)": [[0, "data_juicer.cuda_device_count", false]], "data_juicer": [[0, "module-data_juicer", false]], "data_juicer.analysis": [[1, "module-data_juicer.analysis", false]], "data_juicer.config": [[2, "module-data_juicer.config", false]], "data_juicer.core": [[3, "module-data_juicer.core", false]], "data_juicer.format": [[4, "module-data_juicer.format", false]], "data_juicer.ops": [[5, "module-data_juicer.ops", false]], "data_juicer.ops.aggregator": [[6, "module-data_juicer.ops.aggregator", false]], "data_juicer.ops.common": [[7, "module-data_juicer.ops.common", false]], "data_juicer.ops.deduplicator": [[8, "module-data_juicer.ops.deduplicator", false]], "data_juicer.ops.filter": [[9, "module-data_juicer.ops.filter", false]], "data_juicer.ops.grouper": [[10, "module-data_juicer.ops.grouper", false]], "data_juicer.ops.mapper": [[11, "module-data_juicer.ops.mapper", false]], "data_juicer.ops.selector": [[12, "module-data_juicer.ops.selector", false]], "data_juicer.tools": [[13, "module-data_juicer.tools", false]], "data_juicer.utils": [[14, "module-data_juicer.utils", false]], "deduplicator (class in data_juicer.ops)": [[5, "data_juicer.ops.Deduplicator", false]], "default_attr_pattern_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE", false]], "default_completion_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_continue_prompt (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT", false]], "default_demon_pattern (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN", false]], "default_entity_pattern (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN", false]], "default_entity_types (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES", false]], "default_example_prompt (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT", false]], "default_example_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE", false]], "default_if_loop_prompt (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT", false]], "default_input_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_output_pattern (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_record_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER", false]], "default_reference_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE", false]], "default_relation_pattern (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN", false]], "default_sub_doc_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE", false]], "default_system_prompt (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibratequerymapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrateresponsemapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizequerymapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizeresponsemapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_tuple_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER", false]], "diversityanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.DiversityAnalysis", false]], "documentdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator", false]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator", false]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator", false]], "draw_box() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_box", false]], "draw_hist() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_hist", false]], "draw_resource_util_graph() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.draw_resource_util_graph", false]], "draw_wordcloud() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud", false]], "dynamic_fields (data_juicer.core.monitor attribute)": [[3, "data_juicer.core.Monitor.DYNAMIC_FIELDS", false]], "empty_hash_value (data_juicer.ops.deduplicator.raybasicdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE", false]], "emptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.EmptyFormatter", false]], "entityattributeaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator", false]], "execute_and_probe() (data_juicer.core.adapter static method)": [[3, "data_juicer.core.Adapter.execute_and_probe", false]], "executor (class in data_juicer.core)": [[3, "data_juicer.core.Executor", false]], "expandmacromapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper", false]], "export() (data_juicer.core.exporter method)": [[3, "data_juicer.core.Exporter.export", false]], "export_compute_stats() (data_juicer.core.exporter method)": [[3, "data_juicer.core.Exporter.export_compute_stats", false]], "export_config() (in module data_juicer.config)": [[2, "data_juicer.config.export_config", false]], "exporter (class in data_juicer.core)": [[3, "data_juicer.core.Exporter", false]], "extractentityattributemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper", false]], "extractentityrelationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper", false]], "extracteventmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEventMapper", false]], "extractkeywordmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper", false]], "extractnicknamemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper", false]], "extractsupporttextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper", false]], "filter (class in data_juicer.ops)": [[5, "data_juicer.ops.Filter", false]], "filter() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.filter", false]], "fixunicodemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper", false]], "flaggedwordfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.FlaggedWordFilter", false]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector", false]], "from_dict() (data_juicer.core.nesteddataset class method)": [[3, "data_juicer.core.NestedDataset.from_dict", false]], "generateqafromexamplesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper", false]], "generateqafromtextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper", false]], "get_init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.get_init_configs", false]], "get_reader() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader", false]], "get_sentences_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_sentences_from_document", false]], "get_split_key_frame() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame", false]], "get_text_chunks() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.get_text_chunks", false]], "get_words_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_words_from_document", false]], "gib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.GiB", false]], "grouper (class in data_juicer.ops)": [[5, "data_juicer.ops.Grouper", false]], "imageaestheticsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter", false]], "imageaspectratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter", false]], "imageblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageBlurMapper", false]], "imagecaptioningfromgpt4vmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper", false]], "imagecaptioningmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper", false]], "imagededuplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator", false]], "imagediffusionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper", false]], "imagefaceblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper", false]], "imagefacecountfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter", false]], "imagefaceratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter", false]], "imagensfwfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageNSFWFilter", false]], "imagepairsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter", false]], "imageshapefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageShapeFilter", false]], "imagesizefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageSizeFilter", false]], "imagetaggingmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper", false]], "imagetextmatchingfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter", false]], "imagetextsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter", false]], "imagewatermarkfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter", false]], "init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.init_configs", false]], "insight_mining() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.insight_mining", false]], "is_cuda_available() (in module data_juicer)": [[0, "data_juicer.is_cuda_available", false]], "jsonformatter (class in data_juicer.format)": [[4, "data_juicer.format.JsonFormatter", false]], "keyvaluegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.KeyValueGrouper", false]], "kib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.KiB", false]], "languageidscorefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter", false]], "light_rag_extraction() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction", false]], "load_dataset() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.load_dataset", false]], "load_formatter() (in module data_juicer.format)": [[4, "data_juicer.format.load_formatter", false]], "load_from_disk() (data_juicer.core.nesteddataset static method)": [[3, "data_juicer.core.NestedDataset.load_from_disk", false]], "load_ops() (in module data_juicer.ops)": [[5, "data_juicer.ops.load_ops", false]], "localformatter (class in data_juicer.format)": [[4, "data_juicer.format.LocalFormatter", false]], "map() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.map", false]], "mapper (class in data_juicer.ops)": [[5, "data_juicer.ops.Mapper", false]], "max_batch_size (data_juicer.core.adapter attribute)": [[3, "data_juicer.core.Adapter.MAX_BATCH_SIZE", false]], "maximumlinelengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter", false]], "merge_config() (in module data_juicer.config)": [[2, "data_juicer.config.merge_config", false]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.merge_on_whitespace_tab_newline", false]], "mib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.MiB", false]], "mixtureformatter (class in data_juicer.format)": [[4, "data_juicer.format.MixtureFormatter", false]], "module": [[0, "module-data_juicer", false], [1, "module-data_juicer.analysis", false], [2, "module-data_juicer.config", false], [3, "module-data_juicer.core", false], [4, "module-data_juicer.format", false], [5, "module-data_juicer.ops", false], [6, "module-data_juicer.ops.aggregator", false], [7, "module-data_juicer.ops.common", false], [8, "module-data_juicer.ops.deduplicator", false], [9, "module-data_juicer.ops.filter", false], [10, "module-data_juicer.ops.grouper", false], [11, "module-data_juicer.ops.mapper", false], [12, "module-data_juicer.ops.selector", false], [13, "module-data_juicer.tools", false], [14, "module-data_juicer.utils", false]], "monitor (class in data_juicer.core)": [[3, "data_juicer.core.Monitor", false]], "monitor_all_resources() (data_juicer.core.monitor method)": [[3, "data_juicer.core.Monitor.monitor_all_resources", false]], "monitor_current_resources() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.monitor_current_resources", false]], "monitor_func() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.monitor_func", false]], "mostrelavantentitiesaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator", false]], "naivegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.NaiveGrouper", false]], "nestedaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.NestedAggregator", false]], "nesteddataset (class in data_juicer.core)": [[3, "data_juicer.core.NestedDataset", false]], "nlpaugenmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper", false]], "nlpcdazhmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper", false]], "null_value (data_juicer.format.emptyformatter property)": [[4, "data_juicer.format.EmptyFormatter.null_value", false]], "null_value (data_juicer.format.rayemptyformatter property)": [[4, "data_juicer.format.RayEmptyFormatter.null_value", false]], "optimizeqamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper", false]], "optimizequerymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper", false]], "optimizeresponsemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper", false]], "overallanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.OverallAnalysis", false]], "pairpreferencemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper", false]], "parquetformatter (class in data_juicer.format)": [[4, "data_juicer.format.ParquetFormatter", false]], "parse_output() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibratequerymapper method)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrateresponsemapper method)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizequerymapper method)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizeresponsemapper method)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.parse_output", false]], "perplexityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.PerplexityFilter", false]], "phrasegroundingrecallfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter", false]], "prepare_side_configs() (in module data_juicer.config)": [[2, "data_juicer.config.prepare_side_configs", false]], "probe_small_batch() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.probe_small_batch", false]], "process() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.process", false]], "process() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.process", false]], "process() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.process", false]], "process() (data_juicer.ops.grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.KeyValueGrouper.process", false]], "process() (data_juicer.ops.grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.NaiveGrouper.process", false]], "process() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.process", false]], "process() (data_juicer.ops.selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.randomselector method)": [[12, "data_juicer.ops.selector.RandomSelector.process", false]], "process() (data_juicer.ops.selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector.process", false]], "process_batched() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.process_batched", false]], "process_batched() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.process_batched", false]], "process_batched() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.CleanEmailMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.CleanIpMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.CleanLinksMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched", false]], "process_single() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.process_single", false]], "process_single() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single", false]], "process_single() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.process_single", false]], "process_single() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.process_single", false]], "process_single() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.process_single", false]], "process_single() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.process_single", false]], "process_single() (data_juicer.ops.mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.ImageBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single", false]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper", false]], "pythonfilemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PythonFileMapper", false]], "pythonlambdamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper", false]], "query_most_relavant_entities() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities", false]], "random_sample() (data_juicer.format.mixtureformatter class method)": [[4, "data_juicer.format.MixtureFormatter.random_sample", false]], "randomselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.RandomSelector", false]], "rangespecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector", false]], "raybasicdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator", false]], "raydocumentdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator", false]], "rayemptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.RayEmptyFormatter", false]], "rayimagededuplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator", false]], "rayvideodeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator", false]], "recursive_summary() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.recursive_summary", false]], "recursively_chunk() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.recursively_chunk", false]], "refine_single_column() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.refine_single_column", false]], "relationidentitymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper", false]], "remoteformatter (class in data_juicer.format)": [[4, "data_juicer.format.RemoteFormatter", false]], "remove_columns() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.remove_columns", false]], "removebibliographymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper", false]], "removecommentsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper", false]], "removeheadermapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper", false]], "removelongwordsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper", false]], "removenonchinesecharacterlmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper", false]], "removerepeatsentencesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper", false]], "removespecificcharsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper", false]], "removetabletextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper", false]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper", false]], "replacecontentmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper", false]], "run() (data_juicer.core.analyzer method)": [[3, "data_juicer.core.Analyzer.run", false]], "run() (data_juicer.core.executor method)": [[3, "data_juicer.core.Executor.run", false]], "run() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.run", false]], "run() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.run", false]], "run() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.run", false]], "run() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.run", false]], "run() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.run", false]], "run() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.run", false]], "sample_data() (data_juicer.core.executor method)": [[3, "data_juicer.core.Executor.sample_data", false]], "select() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.select", false]], "select_columns() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.select_columns", false]], "selector (class in data_juicer.ops)": [[5, "data_juicer.ops.Selector", false]], "sentencesplitmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper", false]], "setup_model() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model", false]], "should_keep_long_word() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word", false]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings", false]], "specialcharactersfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter", false]], "specifiedfieldfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter", false]], "specifiednumericfieldfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter", false]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_newline_tab_whitespace", false]], "split_on_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_whitespace", false]], "split_text_by_punctuation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_text_by_punctuation", false]], "split_videos_by_duration() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration", false]], "stopwordsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.StopWordsFilter", false]], "strategy (data_juicer.ops.mapper.videoresizeaspectratiomapper attribute)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY", false]], "strip() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.strip", false]], "suffixes (data_juicer.format.csvformatter attribute)": [[4, "data_juicer.format.CsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.emptyformatter attribute)": [[4, "data_juicer.format.EmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.jsonformatter attribute)": [[4, "data_juicer.format.JsonFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.parquetformatter attribute)": [[4, "data_juicer.format.ParquetFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.rayemptyformatter attribute)": [[4, "data_juicer.format.RayEmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.textformatter attribute)": [[4, "data_juicer.format.TextFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.tsvformatter attribute)": [[4, "data_juicer.format.TsvFormatter.SUFFIXES", false]], "suffixfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SuffixFilter", false]], "take_batch() (data_juicer.core.adapter static method)": [[3, "data_juicer.core.Adapter.take_batch", false]], "textactionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextActionFilter", false]], "textchunkmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.TextChunkMapper", false]], "textentitydependencyfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter", false]], "textformatter (class in data_juicer.format)": [[4, "data_juicer.format.TextFormatter", false]], "textlengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextLengthFilter", false]], "tib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.TiB", false]], "to_json() (data_juicer.core.exporter static method)": [[3, "data_juicer.core.Exporter.to_json", false]], "to_jsonl() (data_juicer.core.exporter static method)": [[3, "data_juicer.core.Exporter.to_jsonl", false]], "to_parquet() (data_juicer.core.exporter static method)": [[3, "data_juicer.core.Exporter.to_parquet", false]], "tokennumfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TokenNumFilter", false]], "topkspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector", false]], "trace_batch_mapper() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_batch_mapper", false]], "trace_deduplicator() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_deduplicator", false]], "trace_filter() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_filter", false]], "trace_mapper() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_mapper", false]], "tracer (class in data_juicer.core)": [[3, "data_juicer.core.Tracer", false]], "tsvformatter (class in data_juicer.format)": [[4, "data_juicer.format.TsvFormatter", false]], "update_args() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.update_args", false]], "videoaestheticsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter", false]], "videoaspectratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter", false]], "videocaptioningfromaudiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper", false]], "videocaptioningfromframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper", false]], "videocaptioningfromsummarizermapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper", false]], "videocaptioningfromvideomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper", false]], "videodeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator", false]], "videodurationfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoDurationFilter", false]], "videoextractframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper", false]], "videofaceblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper", false]], "videoffmpegwrappedmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper", false]], "videoframestextsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter", false]], "videomotionscorefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter", false]], "videomotionscoreraftfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter", false]], "videonsfwfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoNSFWFilter", false]], "videoocrarearatiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter", false]], "videoremovewatermarkmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper", false]], "videoresizeaspectratiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper", false]], "videoresizeresolutionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper", false]], "videoresolutionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoResolutionFilter", false]], "videosplitbydurationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper", false]], "videosplitbykeyframemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper", false]], "videosplitbyscenemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper", false]], "videotaggingfromaudiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper", false]], "videotaggingfromframesfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter", false]], "videotaggingfromframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper", false]], "videowatermarkfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter", false]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper", false]], "wordrepetitionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.WordRepetitionFilter", false]], "words_augmentation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_augmentation", false]], "words_refinement() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_refinement", false]], "wordsnumfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.WordsNumFilter", false]]}, "objects": {"": [[0, 0, 0, "-", "data_juicer"]], "data_juicer": [[1, 0, 0, "-", "analysis"], [2, 0, 0, "-", "config"], [3, 0, 0, "-", "core"], [0, 3, 1, "", "cuda_device_count"], [4, 0, 0, "-", "format"], [0, 3, 1, "", "is_cuda_available"], [5, 0, 0, "-", "ops"], [13, 0, 0, "-", "tools"], [14, 0, 0, "-", "utils"]], "data_juicer.analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 1, 1, "", "DiversityAnalysis"], [1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"], [1, 2, 1, "", "draw_wordcloud"]], "data_juicer.analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "refine_single_column"]], "data_juicer.config": [[2, 3, 1, "", "export_config"], [2, 3, 1, "", "get_init_configs"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "merge_config"], [2, 3, 1, "", "prepare_side_configs"]], "data_juicer.core": [[3, 1, 1, "", "Adapter"], [3, 1, 1, "", "Analyzer"], [3, 1, 1, "", "Executor"], [3, 1, 1, "", "Exporter"], [3, 1, 1, "", "Monitor"], [3, 1, 1, "", "NestedDataset"], [3, 1, 1, "", "Tracer"]], "data_juicer.core.Adapter": [[3, 4, 1, "", "MAX_BATCH_SIZE"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "adapt_workloads"], [3, 2, 1, "", "analyze_small_batch"], [3, 2, 1, "", "batch_size_strategy"], [3, 2, 1, "", "execute_and_probe"], [3, 2, 1, "", "insight_mining"], [3, 2, 1, "", "probe_small_batch"], [3, 2, 1, "", "take_batch"]], "data_juicer.core.Analyzer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.Executor": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"], [3, 2, 1, "", "sample_data"]], "data_juicer.core.Exporter": [[3, 4, 1, "", "GiB"], [3, 4, 1, "", "KiB"], [3, 4, 1, "", "MiB"], [3, 4, 1, "", "TiB"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "export"], [3, 2, 1, "", "export_compute_stats"], [3, 2, 1, "", "to_json"], [3, 2, 1, "", "to_jsonl"], [3, 2, 1, "", "to_parquet"]], "data_juicer.core.Monitor": [[3, 4, 1, "", "DYNAMIC_FIELDS"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "analyze_resource_util_list"], [3, 2, 1, "", "analyze_single_resource_util"], [3, 2, 1, "", "draw_resource_util_graph"], [3, 2, 1, "", "monitor_all_resources"], [3, 2, 1, "", "monitor_current_resources"], [3, 2, 1, "", "monitor_func"]], "data_juicer.core.NestedDataset": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "add_column"], [3, 2, 1, "", "cleanup_cache_files"], [3, 2, 1, "", "filter"], [3, 2, 1, "", "from_dict"], [3, 2, 1, "", "load_from_disk"], [3, 2, 1, "", "map"], [3, 2, 1, "", "process"], [3, 2, 1, "", "remove_columns"], [3, 2, 1, "", "select"], [3, 2, 1, "", "select_columns"], [3, 2, 1, "", "update_args"]], "data_juicer.core.Tracer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "trace_batch_mapper"], [3, 2, 1, "", "trace_deduplicator"], [3, 2, 1, "", "trace_filter"], [3, 2, 1, "", "trace_mapper"]], "data_juicer.format": [[4, 1, 1, "", "CsvFormatter"], [4, 1, 1, "", "EmptyFormatter"], [4, 1, 1, "", "JsonFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "MixtureFormatter"], [4, 1, 1, "", "ParquetFormatter"], [4, 1, 1, "", "RayEmptyFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 1, 1, "", "TextFormatter"], [4, 1, 1, "", "TsvFormatter"], [4, 3, 1, "", "load_formatter"]], "data_juicer.format.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.EmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 2, 1, "", "random_sample"]], "data_juicer.format.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.RayEmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.ops": [[5, 1, 1, "", "Aggregator"], [5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Grouper"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "Selector"], [6, 0, 0, "-", "aggregator"], [7, 0, 0, "-", "common"], [8, 0, 0, "-", "deduplicator"], [9, 0, 0, "-", "filter"], [10, 0, 0, "-", "grouper"], [5, 3, 1, "", "load_ops"], [11, 0, 0, "-", "mapper"], [12, 0, 0, "-", "selector"]], "data_juicer.ops.Aggregator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Deduplicator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.Filter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "compute_stats_single"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Grouper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.Mapper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Selector": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.aggregator": [[6, 1, 1, "", "EntityAttributeAggregator"], [6, 1, 1, "", "MostRelavantEntitiesAggregator"], [6, 1, 1, "", "NestedAggregator"]], "data_juicer.ops.aggregator.EntityAttributeAggregator": [[6, 4, 1, "", "DEFAULT_EXAMPLE_PROMPT"], [6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "attribute_summary"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "query_most_relavant_entities"]], "data_juicer.ops.aggregator.NestedAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SUB_DOC_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "recursive_summary"]], "data_juicer.ops.common": [[7, 3, 1, "", "get_sentences_from_document"], [7, 3, 1, "", "get_words_from_document"], [7, 3, 1, "", "merge_on_whitespace_tab_newline"], [7, 3, 1, "", "split_on_newline_tab_whitespace"], [7, 3, 1, "", "split_on_whitespace"], [7, 3, 1, "", "split_text_by_punctuation"], [7, 3, 1, "", "strip"], [7, 3, 1, "", "words_augmentation"], [7, 3, 1, "", "words_refinement"]], "data_juicer.ops.deduplicator": [[8, 1, 1, "", "DocumentDeduplicator"], [8, 1, 1, "", "DocumentMinhashDeduplicator"], [8, 1, 1, "", "DocumentSimhashDeduplicator"], [8, 1, 1, "", "ImageDeduplicator"], [8, 1, 1, "", "RayBasicDeduplicator"], [8, 1, 1, "", "RayDocumentDeduplicator"], [8, 1, 1, "", "RayImageDeduplicator"], [8, 1, 1, "", "RayVideoDeduplicator"], [8, 1, 1, "", "VideoDeduplicator"]], "data_juicer.ops.deduplicator.DocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.ImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.RayBasicDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"], [8, 2, 1, "", "compute_stats_single"], [8, 2, 1, "", "process_single"]], "data_juicer.ops.deduplicator.RayDocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.RayImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.RayVideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.VideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter": [[9, 1, 1, "", "AlphanumericFilter"], [9, 1, 1, "", "AudioDurationFilter"], [9, 1, 1, "", "AudioNMFSNRFilter"], [9, 1, 1, "", "AudioSizeFilter"], [9, 1, 1, "", "AverageLineLengthFilter"], [9, 1, 1, "", "CharacterRepetitionFilter"], [9, 1, 1, "", "FlaggedWordFilter"], [9, 1, 1, "", "ImageAestheticsFilter"], [9, 1, 1, "", "ImageAspectRatioFilter"], [9, 1, 1, "", "ImageFaceCountFilter"], [9, 1, 1, "", "ImageFaceRatioFilter"], [9, 1, 1, "", "ImageNSFWFilter"], [9, 1, 1, "", "ImagePairSimilarityFilter"], [9, 1, 1, "", "ImageShapeFilter"], [9, 1, 1, "", "ImageSizeFilter"], [9, 1, 1, "", "ImageTextMatchingFilter"], [9, 1, 1, "", "ImageTextSimilarityFilter"], [9, 1, 1, "", "ImageWatermarkFilter"], [9, 1, 1, "", "LanguageIDScoreFilter"], [9, 1, 1, "", "MaximumLineLengthFilter"], [9, 1, 1, "", "PerplexityFilter"], [9, 1, 1, "", "PhraseGroundingRecallFilter"], [9, 1, 1, "", "SpecialCharactersFilter"], [9, 1, 1, "", "SpecifiedFieldFilter"], [9, 1, 1, "", "SpecifiedNumericFieldFilter"], [9, 1, 1, "", "StopWordsFilter"], [9, 1, 1, "", "SuffixFilter"], [9, 1, 1, "", "TextActionFilter"], [9, 1, 1, "", "TextEntityDependencyFilter"], [9, 1, 1, "", "TextLengthFilter"], [9, 1, 1, "", "TokenNumFilter"], [9, 1, 1, "", "VideoAestheticsFilter"], [9, 1, 1, "", "VideoAspectRatioFilter"], [9, 1, 1, "", "VideoDurationFilter"], [9, 1, 1, "", "VideoFramesTextSimilarityFilter"], [9, 1, 1, "", "VideoMotionScoreFilter"], [9, 1, 1, "", "VideoMotionScoreRaftFilter"], [9, 1, 1, "", "VideoNSFWFilter"], [9, 1, 1, "", "VideoOcrAreaRatioFilter"], [9, 1, 1, "", "VideoResolutionFilter"], [9, 1, 1, "", "VideoTaggingFromFramesFilter"], [9, 1, 1, "", "VideoWatermarkFilter"], [9, 1, 1, "", "WordRepetitionFilter"], [9, 1, 1, "", "WordsNumFilter"]], "data_juicer.ops.filter.AlphanumericFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.AudioDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AudioNMFSNRFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AudioSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AverageLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.CharacterRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.FlaggedWordFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.ImageAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.ImageFaceCountFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageFaceRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImagePairSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageShapeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageTextMatchingFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.LanguageIDScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.MaximumLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.PerplexityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.PhraseGroundingRecallFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SpecialCharactersFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.SpecifiedFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SpecifiedNumericFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.StopWordsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SuffixFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextActionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextEntityDependencyFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.TokenNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoFramesTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoMotionScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.VideoMotionScoreRaftFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.VideoNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoOcrAreaRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "get_reader"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoResolutionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoTaggingFromFramesFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.WordRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.WordsNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.grouper": [[10, 1, 1, "", "KeyValueGrouper"], [10, 1, 1, "", "NaiveGrouper"]], "data_juicer.ops.grouper.KeyValueGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.NaiveGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.mapper": [[11, 1, 1, "", "AudioFFmpegWrappedMapper"], [11, 1, 1, "", "CalibrateQAMapper"], [11, 1, 1, "", "CalibrateQueryMapper"], [11, 1, 1, "", "CalibrateResponseMapper"], [11, 1, 1, "", "ChineseConvertMapper"], [11, 1, 1, "", "CleanCopyrightMapper"], [11, 1, 1, "", "CleanEmailMapper"], [11, 1, 1, "", "CleanHtmlMapper"], [11, 1, 1, "", "CleanIpMapper"], [11, 1, 1, "", "CleanLinksMapper"], [11, 1, 1, "", "ExpandMacroMapper"], [11, 1, 1, "", "ExtractEntityAttributeMapper"], [11, 1, 1, "", "ExtractEntityRelationMapper"], [11, 1, 1, "", "ExtractEventMapper"], [11, 1, 1, "", "ExtractKeywordMapper"], [11, 1, 1, "", "ExtractNicknameMapper"], [11, 1, 1, "", "ExtractSupportTextMapper"], [11, 1, 1, "", "FixUnicodeMapper"], [11, 1, 1, "", "GenerateQAFromExamplesMapper"], [11, 1, 1, "", "GenerateQAFromTextMapper"], [11, 1, 1, "", "ImageBlurMapper"], [11, 1, 1, "", "ImageCaptioningFromGPT4VMapper"], [11, 1, 1, "", "ImageCaptioningMapper"], [11, 1, 1, "", "ImageDiffusionMapper"], [11, 1, 1, "", "ImageFaceBlurMapper"], [11, 1, 1, "", "ImageTaggingMapper"], [11, 1, 1, "", "NlpaugEnMapper"], [11, 1, 1, "", "NlpcdaZhMapper"], [11, 1, 1, "", "OptimizeQAMapper"], [11, 1, 1, "", "OptimizeQueryMapper"], [11, 1, 1, "", "OptimizeResponseMapper"], [11, 1, 1, "", "PairPreferenceMapper"], [11, 1, 1, "", "PunctuationNormalizationMapper"], [11, 1, 1, "", "PythonFileMapper"], [11, 1, 1, "", "PythonLambdaMapper"], [11, 1, 1, "", "RelationIdentityMapper"], [11, 1, 1, "", "RemoveBibliographyMapper"], [11, 1, 1, "", "RemoveCommentsMapper"], [11, 1, 1, "", "RemoveHeaderMapper"], [11, 1, 1, "", "RemoveLongWordsMapper"], [11, 1, 1, "", "RemoveNonChineseCharacterlMapper"], [11, 1, 1, "", "RemoveRepeatSentencesMapper"], [11, 1, 1, "", "RemoveSpecificCharsMapper"], [11, 1, 1, "", "RemoveTableTextMapper"], [11, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"], [11, 1, 1, "", "ReplaceContentMapper"], [11, 1, 1, "", "SentenceSplitMapper"], [11, 1, 1, "", "TextChunkMapper"], [11, 1, 1, "", "VideoCaptioningFromAudioMapper"], [11, 1, 1, "", "VideoCaptioningFromFramesMapper"], [11, 1, 1, "", "VideoCaptioningFromSummarizerMapper"], [11, 1, 1, "", "VideoCaptioningFromVideoMapper"], [11, 1, 1, "", "VideoExtractFramesMapper"], [11, 1, 1, "", "VideoFFmpegWrappedMapper"], [11, 1, 1, "", "VideoFaceBlurMapper"], [11, 1, 1, "", "VideoRemoveWatermarkMapper"], [11, 1, 1, "", "VideoResizeAspectRatioMapper"], [11, 1, 1, "", "VideoResizeResolutionMapper"], [11, 1, 1, "", "VideoSplitByDurationMapper"], [11, 1, 1, "", "VideoSplitByKeyFrameMapper"], [11, 1, 1, "", "VideoSplitBySceneMapper"], [11, 1, 1, "", "VideoTaggingFromAudioMapper"], [11, 1, 1, "", "VideoTaggingFromFramesMapper"], [11, 1, 1, "", "WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.AudioFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.CalibrateQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_REFERENCE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.CalibrateQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.CalibrateResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.ChineseConvertMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanCopyrightMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanEmailMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanHtmlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanIpMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanLinksMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExpandMacroMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExtractEntityAttributeMapper": [[11, 4, 1, "", "DEFAULT_ATTR_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_DEMON_PATTERN"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractEntityRelationMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_CONTINUE_PROMPT"], [11, 4, 1, "", "DEFAULT_ENTITY_PATTERN"], [11, 4, 1, "", "DEFAULT_ENTITY_TYPES"], [11, 4, 1, "", "DEFAULT_IF_LOOP_PROMPT"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RECORD_DELIMITER"], [11, 4, 1, "", "DEFAULT_RELATION_PATTERN"], [11, 4, 1, "", "DEFAULT_TUPLE_DELIMITER"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "add_message"], [11, 2, 1, "", "light_rag_extraction"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractEventMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExtractKeywordMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractNicknameMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractSupportTextMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.FixUnicodeMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.GenerateQAFromExamplesMapper": [[11, 4, 1, "", "DEFAULT_EXAMPLE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.GenerateQAFromTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageCaptioningMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageDiffusionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ImageTaggingMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.NlpaugEnMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.NlpcdaZhMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.OptimizeQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.OptimizeQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.OptimizeResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.PairPreferenceMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.PunctuationNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.PythonFileMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.PythonLambdaMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.RelationIdentityMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.RemoveBibliographyMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveCommentsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveHeaderMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveLongWordsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveRepeatSentencesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveSpecificCharsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveTableTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.ReplaceContentMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.SentenceSplitMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.TextChunkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_text_chunks"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "recursively_chunk"]], "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoExtractFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoRemoveWatermarkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoResizeAspectRatioMapper": [[11, 4, 1, "", "STRATEGY"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoResizeResolutionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoSplitByDurationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "split_videos_by_duration"]], "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_split_key_frame"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoSplitBySceneMapper": [[11, 2, 1, "", "__init__"], [11, 4, 1, "", "avaliable_detectors"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoTaggingFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoTaggingFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.WhitespaceNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.selector": [[12, 1, 1, "", "FrequencySpecifiedFieldSelector"], [12, 1, 1, "", "RandomSelector"], [12, 1, 1, "", "RangeSpecifiedFieldSelector"], [12, 1, 1, "", "TopkSpecifiedFieldSelector"]], "data_juicer.ops.selector.FrequencySpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.RandomSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.RangeSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.TopkSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]]}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property"}, "terms": {"": [1, 3, 6, 8, 9, 11], "0": [3, 4, 5, 6, 8, 9, 11, 12], "003": 9, "045": 9, "05": 3, "0b5": 11, "0x20": 11, "1": [1, 3, 4, 8, 9, 11, 12], "10": [3, 9, 11], "100": 6, "10000": 3, "100\u5b57": 6, "1024": 3, "1048576": 3, "1073741824": 3, "1099511627776": 3, "10ve": 11, "12039": 9, "15": 11, "1500": 9, "1_text_length_filt": 3, "1b8": 11, "1tb": 9, "2": [3, 7, 9, 11], "20": 11, "2003": 9, "21": [9, 11], "24": 15, "25": 9, "256": 8, "27": 11, "2nb": 11, "3": [6, 9, 11], "308": 9, "333": 9, "4": [8, 9, 11], "42": 4, "4593": 11, "4b": 11, "4o": [6, 11], "5": [3, 8, 9, 11], "500": [9, 11], "6": [8, 9, 11], "6380": 8, "7": [8, 11], "72b": 11, "7976931348623157e": 9, "7b": 11, "8": [3, 9, 11], "8b": 11, "9": [3, 6, 9, 11], "9223372036854775807": [9, 11], "95": [6, 9, 11], "9b": 9, "A": [3, 5, 8, 11], "And": [8, 11], "As": 9, "By": [9, 11], "For": [3, 5, 6, 8, 9, 11], "If": [1, 3, 8, 9, 11], "In": [1, 3], "It": [3, 4, 6, 8, 9, 10, 11], "NO": 11, "One": 11, "The": [3, 4, 5, 6, 9, 11, 12], "These": 11, "To": 11, "__dj__attribute__": 11, "__dj__attribute_description__": 11, "__dj__attribute_descriptions__": 11, "__dj__attribute_support_texts__": 11, "__dj__attributes__": 11, "__dj__entity__": 11, "__dj__event_description__": 11, "__dj__image_tags__": 11, "__dj__keyword__": 11, "__dj__main_entities__": 11, "__dj__nickname__": 11, "__dj__relation__": 11, "__dj__relevant_characters__": 11, "__dj__stats__": [6, 10, 11], "__dj__support_text__": 11, "__dj__video_audio_tags__": 11, "__dj__video_frame_tags__": [9, 11], "__dj__video_frames__": 11, "__init__": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12], "__path__": 2, "ab": 9, "abil": 11, "about": 11, "abov": [3, 11], "abstractfilesystem": 3, "acceler": 11, "accept": 11, "access": 3, "accord": [3, 4, 5, 9, 10, 11], "account": 9, "acknowledg": 11, "act": 11, "action": [9, 11], "activ": 11, "ad": [3, 7, 11], "adapt": [3, 15], "adapt_workload": 3, "adaptivedetector": 11, "add": [3, 4, 11], "add_column": 3, "add_final_scen": 11, "add_messag": 11, "add_suffix": 4, "addit": [9, 11], "address": 11, "adjust": 11, "adopt": 9, "aesthet": 9, "affect": 11, "after": [1, 3, 7, 8, 9, 11], "against": 11, "aggreg": [5, 15], "ai": [9, 11], "akin": 11, "alert": 11, "alex": 11, "algorith": 9, "algorithm": [3, 8, 11], "alibaba": 11, "all": [1, 3, 7, 9, 10, 11], "all_keyfram": [9, 11], "allow": [9, 11], "almost": 11, "alphabet": [8, 9, 11], "alphanumer": 9, "alphanumericfilt": [9, 15], "also": 7, "although": 8, "alwai": 8, "among": 11, "amount": 11, "amrul": 9, "an": [1, 3, 4, 5, 6, 8, 9, 11], "analysi": [3, 15], "analyz": [1, 2, 3, 15], "analyze_resource_util_list": 3, "analyze_single_resource_util": 3, "analyze_small_batch": 3, "ani": [3, 7, 9, 11], "annot": [3, 6, 8, 9, 11, 12], "anoth": 11, "answer": 11, "anticip": 11, "anxieti": 11, "any_or_al": [9, 11], "anyth": 9, "api": [3, 6, 11], "api_endpoint": [6, 11], "api_kei": 11, "api_model": [6, 11], "appear": 11, "appli": [1, 3, 8, 11, 12], "approxim": 9, "ar": [2, 3, 7, 8, 9, 11, 12], "area": 9, "arg": [2, 3, 4, 5, 8, 9, 10, 11, 12], "argument": [1, 3, 5, 6, 9, 11], "arxiv": 9, "asm": 4, "aspect": [9, 11], "aspectratio": [9, 11], "asset": 9, "assist": 11, "associ": 11, "ast": 11, "attempt": [6, 11], "attitud": 11, "attr_pattern_templ": 11, "attribut": [6, 11], "attribute_desc_kei": 11, "attribute_kei": 11, "attribute_nam": 11, "attribute_summari": 6, "audio": [5, 9, 11], "audio_kei": 5, "audiodurationfilt": [9, 15], "audioffmpegwrappedmapp": [11, 15], "audionmfsnrfilt": [9, 15], "audioset": 11, "audiosizefilt": [9, 15], "aug_num": 11, "augment": [3, 7, 9, 11], "authent": 11, "authoritarian": 11, "autonomi": 11, "ava1": 9, "avail": [3, 9], "avaliable_detector": 11, "averag": [3, 9], "averagelinelengthfilt": [9, 15], "avg": [3, 9], "avoid": 3, "aw": 11, "ax": 1, "b": 11, "back": 11, "backdrop": 11, "backend": 3, "baichuan2": 11, "balanc": 3, "band": 8, "bare": 11, "base": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12], "base_b": 3, "baseformatt": 4, "bash": 4, "basic": 8, "bat": 4, "batch": [3, 5, 6, 10, 11], "batch_size_strategi": 3, "batched_op": 11, "batchmapp": 3, "bbox": 9, "been": 11, "befor": [3, 9], "begin": 11, "being": [9, 11], "below": [9, 11], "besid": 11, "better": [3, 9], "between": [7, 8, 9, 11], "bf16": 11, "bibliographi": 11, "bigger": [4, 11], "blip": [9, 11], "blip2": 11, "blob": 9, "block": 8, "block_siz": 11, "blur": 11, "blur_typ": 11, "blure": 11, "bode": 11, "bodi": 11, "bool": [2, 3, 8, 9, 11, 12], "boolean": [5, 8, 9, 11], "both": [11, 12], "bottom": [9, 11], "bound": 12, "box": [1, 11], "branch": 11, "bring": 11, "brought": 11, "bucket": 3, "build": 11, "build_input": 11, "buzz": 11, "byte": [8, 9], "c": 4, "cach": [3, 9], "calcul": [8, 9, 11], "calculate_hash": 8, "calibr": 11, "calibrateqamapp": [11, 15], "calibratequerymapp": [11, 15], "calibrateresponsemapp": [11, 15], "call": [3, 6, 11], "can": [3, 9, 11], "candid": 11, "capabl": 11, "caption": 11, "caption_kei": 11, "caption_num": 11, "captur": 11, "capture_stderr": 11, "case": [7, 8, 9, 11, 15], "cast": 11, "cc": 4, "central": 11, "certainti": 11, "cfg": [2, 3, 4], "cfg_after_merg": 2, "ch_sim": 9, "challeng": 11, "chang": [3, 11], "char": [7, 9, 11], "charact": [7, 8, 9, 11], "characterrepetitionfilt": [9, 15], "chars_to_remov": 11, "chatml": 11, "check": [2, 3, 11], "checkpoint": 3, "chines": [7, 8, 9, 11], "chineseclip": 9, "chineseconvertmapp": [11, 15], "choic": [6, 9, 11], "choos": 11, "chunk": [9, 11], "clash": 11, "class": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12], "classifi": [9, 11], "classmethod": [3, 4], "clean": 11, "cleancopyrightmapp": [11, 15], "cleanemailmapp": [11, 15], "cleanhtmlmapp": [11, 15], "cleanipmapp": [11, 15], "cleanlinksmapp": [11, 15], "cleanup_cache_fil": 3, "clear": 3, "clearli": 11, "clench": 11, "clip": [9, 11], "close": [6, 11], "closedunitinterv": 9, "cmake": 4, "cmd": 4, "coco": 9, "code": [2, 11], "col": 1, "collect": 11, "column": [1, 3, 11], "column_nam": 1, "columnwiseanalysi": [1, 3, 15], "com": 9, "combin": 11, "command": [2, 4, 11], "comment": 11, "commit": 11, "common": [3, 15], "commun": 11, "compar": 3, "comparison": 3, "competit": 11, "complet": 11, "completion_delimit": 11, "comprehens": 11, "compress": 3, "comput": [1, 3, 5, 7, 8, 9], "compute_flow": 9, "compute_hash": [5, 8], "compute_stats_batch": [5, 9], "compute_stats_singl": [5, 8, 9], "compvi": 11, "concaten": [7, 11], "concentr": 11, "concept": 11, "conclus": 6, "condit": [9, 11], "conduct": 5, "conf_thr": 9, "confid": 9, "config": [3, 5, 11, 15], "configur": [2, 3, 4, 11], "conflict": 11, "conifg": 2, "consequ": 4, "consid": [3, 6, 8, 9, 11], "consider_text": 8, "consider_video_caption_from_audio": 11, "consider_video_caption_from_fram": 11, "consider_video_caption_from_video": 11, "consider_video_tags_from_audio": 11, "consider_video_tags_from_fram": 11, "consist": 3, "constraint": 9, "construct": [3, 11], "constructor": 3, "contact": 11, "contain": [4, 7, 9, 11], "content": [3, 6, 11], "content_keyword": 11, "contentdetector": 11, "context": [5, 8, 9, 11], "contigu": 11, "continu": 11, "continue_prompt": 11, "contrast": 11, "control": 11, "convers": 11, "convert": [7, 8, 11], "coodin": 11, "coordin": 11, "copi": 3, "copyright": 11, "core": 15, "corner": 11, "correspond": [9, 11, 12], "cosmic": 11, "could": 11, "count": [3, 9], "cpp": 4, "cpu": 3, "creat": 4, "cruz": 11, "css": 4, "csv": 4, "csvformatt": [4, 15], "cuda_device_count": [0, 16], "curr_fram": 9, "current": 3, "current_st": 3, "custom": 11, "cut": 11, "cv_classifi": [9, 11], "d": [3, 4, 11], "dashscop": 11, "data": [1, 3, 4, 5, 9, 11], "data_juic": 15, "datajuc": 2, "datas": 4, "dataset": [1, 3, 4, 5, 8, 9, 10, 11, 12], "dataset_path": [3, 4], "dataset_to_sampl": 3, "datasetdict": 3, "datasset": 4, "db": 9, "decid": [3, 5, 8, 9], "decreas": 11, "dedup": 9, "dedupl": [3, 5, 11, 15], "deep": 11, "default": [1, 2, 3, 4, 6, 8, 9, 10, 11], "default_attr_pattern_templ": 11, "default_completion_delimit": 11, "default_continue_prompt": 11, "default_demon_pattern": 11, "default_entity_pattern": 11, "default_entity_typ": 11, "default_example_prompt": 6, "default_example_templ": 11, "default_if_loop_prompt": 11, "default_input_templ": [6, 11], "default_output_pattern": [6, 11], "default_output_pattern_templ": [6, 11], "default_prompt_templ": 11, "default_qa_pair_templ": 11, "default_record_delimit": 11, "default_reference_templ": 11, "default_relation_pattern": 11, "default_sub_doc_templ": 6, "default_system_prompt": [6, 11], "default_system_prompt_templ": 11, "default_system_templ": 6, "default_tuple_delimit": 11, "defaut": 2, "defin": 11, "definit": 11, "delet": 11, "delete_random_char": 11, "delete_random_word": 11, "delimit": [4, 11], "demo_pattern": 11, "demonstract": 11, "denois": 11, "denot": 11, "dens": 9, "depend": [9, 11], "descend": [6, 12], "describ": 1, "descript": 11, "design": 11, "detail": [3, 9, 11, 15], "detect": [3, 8, 9, 11], "detection_method": 11, "detector": 11, "determin": [8, 11, 12], "devic": 11, "diagon": 9, "dialogu": 11, "dict": [2, 3, 6, 11], "dictionari": 11, "did": 11, "differ": [3, 4, 7, 8, 9, 11], "diffus": 11, "digit": 8, "dimens": [9, 11], "dir": 4, "directli": 11, "directori": [3, 4, 9, 11], "disabl": 11, "discard": 11, "discoveri": 11, "disk": [1, 3], "dismiss": 11, "distanc": 8, "distribut": [1, 3, 11], "divers": [1, 11], "diversityanalysi": [1, 15], "divis": [9, 11], "djdataset": 3, "doc": [5, 6, 8], "doc2qa": 11, "doc_typ": 11, "dockerfil": 4, "document": [6, 7, 8, 9, 11], "documentdedupl": [8, 15], "documentminhashdedupl": [8, 15], "documentsimhashdedupl": [8, 15], "docx": [4, 9], "doubl": 11, "draw": 1, "draw_box": 1, "draw_hist": 1, "draw_resource_util_graph": 3, "draw_wordcloud": 1, "drop": 11, "drop_no_head": 11, "drop_text": 11, "ds_dir": 4, "ds_file": 4, "due": 3, "dull": 11, "dup_pair": 3, "duplic": [3, 5, 8], "durat": [9, 11], "dure": 3, "dynam": 11, "dynamic_field": 3, "e": [2, 3, 4, 6, 9, 11], "e501": 9, "each": [1, 3, 5, 6, 8, 11], "earlier": 11, "easyocr": 9, "edg": [9, 11], "edit": 5, "effect": 3, "effici": 3, "ego4d": 11, "either": 11, "element": 7, "eleutherai": 9, "email": 11, "embed": 3, "emoji": 7, "empti": [4, 8, 11], "empty_hash_valu": 8, "emptyformatt": [4, 11, 15], "en": [1, 7, 9, 11], "enabl": [3, 11], "enable_vllm": 11, "encourag": 11, "encrypt": 11, "end": 11, "endpoint": [6, 11], "energi": 11, "enforc": 11, "english": [8, 9, 11], "enhanc": 3, "enlarg": 11, "ensu": 11, "ensur": 11, "entir": 11, "entiti": [6, 9, 11], "entity1": 11, "entity2": 11, "entity_attribute_kei": 11, "entity_descript": 11, "entity_kei": 11, "entity_nam": 11, "entity_pattern": 11, "entity_typ": [6, 11], "entityattributeaggreg": 6, "entri": 2, "environ": [2, 3], "equal": [9, 11, 12], "equival": 11, "error": [6, 11], "especi": [7, 9], "essenti": 11, "estim": 3, "etc": [1, 3, 4], "even": 11, "evenli": 9, "event": 11, "event_desc_kei": 11, "everi": [4, 11], "exact": 8, "exampl": [3, 6, 9, 11], "example_num": 11, "example_prompt": 6, "example_templ": 11, "exce": [3, 9, 11], "except": [3, 11], "exclud": 2, "execut": [3, 11], "execute_and_prob": 3, "executor": [2, 3, 15], "exist": 2, "expand": 11, "expandmacromapp": [11, 15], "expect": [2, 3, 11], "expens": 11, "experi": 11, "explan": 11, "explicitli": 3, "explor": 11, "export": [1, 3, 4, 5, 15], "export_compute_stat": 3, "export_config": [2, 15], "export_d": 3, "export_in_parallel": 3, "export_path": 3, "export_shard_s": 3, "export_stat": 3, "express": 11, "extent": 11, "extra": [3, 4, 6, 8, 9, 10, 11, 12], "extract": [3, 6, 9, 11], "extractentityattributemapp": [11, 15], "extractentityrelationmapp": [11, 15], "extracteventmapp": [11, 15], "extractkeywordmapp": [11, 15], "extractnicknamemapp": [11, 15], "extractsupporttextmapp": [11, 15], "ey": 11, "f": 4, "f03": 4, "f08": 4, "f77": 4, "f90": 4, "f95": 4, "face": [9, 11], "factor": 3, "fade_bia": 11, "failur": 11, "falconsai": 9, "fals": [1, 2, 3, 4, 5, 7, 8, 9, 11], "falter": 11, "farneback": 9, "faster": 7, "featur": 4, "feature_kei": [4, 11], "ffmpeg": 11, "field": [3, 4, 5, 6, 8, 9, 11, 12], "field_kei": [9, 12], "fieldinfo": [8, 11, 12], "figur": [1, 3, 11], "file": [1, 2, 3, 4, 5, 9, 11], "file_path": 11, "filesystem": 3, "filter": [3, 5, 8, 11, 15], "filter_kwarg": 11, "filter_nam": 11, "final": [8, 11], "finetun": 11, "finish": 11, "first": [3, 7, 8, 9, 11], "fix": 11, "fixunicodemapp": [11, 15], "flag": 9, "flagged_word": 9, "flagged_words_dir": 9, "flaggedwordfilt": [9, 15], "fleet": 11, "flip": [9, 11], "float": [3, 8, 9, 11, 12], "flow": 9, "flurri": 11, "focus": 11, "follow": [3, 11], "forc": 11, "force_divisible_bi": 11, "force_original_aspect_ratio": 11, "forg": 11, "form": 11, "format": [2, 3, 9, 11, 15], "formatt": [3, 4], "former": [9, 11], "found": [9, 11], "foundat": 15, "fp16": 11, "fp32": 11, "fpp": 4, "frame": [9, 11], "frame_dir": 11, "frame_kei": 11, "frame_num": [9, 11], "frame_sample_num": 9, "frame_sampling_method": [9, 11], "frames_per_second": 9, "free": 3, "frequenc": 12, "frequency_specified_field_selector": 3, "frequencyspecifiedfieldselector": [12, 15], "frequent": 11, "from": [2, 3, 4, 5, 6, 7, 8, 9, 11, 12], "from_dict": 3, "from_xx": 3, "frustrat": 11, "fsspec": 3, "ftp": 11, "full": [9, 11], "func": 3, "function": [1, 7, 8, 11], "function_nam": 11, "further": 9, "futur": 11, "g": [2, 3, 4, 6, 11], "game": 11, "gaussian": 11, "ge": [8, 11, 12], "gener": [3, 11], "generated_dataset_config": [4, 11], "generateqafromexamplesmapp": [11, 15], "generateqafromtextmapp": [11, 15], "geo": 11, "get": [1, 7], "get_divers": 1, "get_init_config": [2, 15], "get_read": 9, "get_sentences_from_docu": [7, 15], "get_split_key_fram": 11, "get_text_chunk": 11, "get_words_from_docu": [7, 15], "gib": 3, "git": 11, "github": 9, "give": [11, 15], "given": [3, 6, 9, 10, 11], "glean": 11, "glimps": 11, "global": [2, 4, 11], "global_arg": 11, "global_cfg": 4, "go": 4, "goal": 11, "googl": 9, "govern": 11, "gpt": [6, 11], "gpt4": 11, "gpu": 3, "gram": 9, "grand": 11, "graph": 11, "graviti": 11, "greater": [9, 11, 12], "ground": 9, "group": [5, 7, 9, 10], "group_by_kei": 10, "group_siz": 7, "grouper": [5, 6, 15], "gt": [3, 6, 8, 9, 11, 12], "guarante": 3, "guid": 11, "guidanc": [11, 15], "guidance_scal": 11, "h": [4, 9, 11], "ha": 11, "haarcascade_frontalface_alt": [9, 11], "had": 11, "ham": 8, "hamming_dist": 8, "hand": 11, "hard": 2, "hash": [3, 5, 8], "have": [9, 11], "he": 11, "header": 11, "heartbeat": 11, "heaven": 11, "height": [9, 11], "help": 3, "here": [9, 11, 15], "hf": 11, "hf_ast": 11, "hf_blip": 9, "hf_clip": 9, "hf_diffus": 11, "hf_img2seq": 11, "hf_model": 11, "hf_nsfw_model": 9, "hf_owlvit": 9, "hf_scorer_model": 9, "hf_summar": 11, "hf_token": 9, "hf_video_blip": 11, "hf_watermark_model": 9, "hh": 4, "hi": 11, "high": [9, 11], "high_level_keyword": 11, "higher": 11, "him": 11, "histogram": 1, "histori": [5, 11], "history_kei": 5, "hk2": 11, "hk2t": 11, "home": 9, "homophon": 11, "hong": 11, "horizont": [9, 11], "horizontal_flip": [9, 11], "hostnam": 8, "how": 11, "hpp": 4, "html": [4, 9, 11], "http": [9, 11], "hub": 4, "hug": [9, 11], "hugginfac": 11, "huggingfac": [3, 4, 9, 11], "human": 11, "hzz": 9, "i": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11], "id": 11, "idea": 11, "ident": 11, "identif": 9, "identifi": [9, 11], "ideolog": 11, "idiom": 11, "if_loop_prompt": 11, "ignor": [8, 11], "ignore_non_charact": 8, "ignore_pattern": 8, "ignore_special_charact": 11, "illus": 11, "imag": [1, 5, 8, 9, 11], "image_kei": 5, "imageaestheticsfilt": [9, 15], "imageaspectratiofilt": [9, 15], "imageblurmapp": [11, 15], "imagecaptioningfromgpt4vmapp": [11, 15], "imagecaptioningmapp": [11, 15], "imagededupl": [8, 15], "imagediffusionmapp": [11, 15], "imagefaceblurmapp": [11, 15], "imagefacecountfilt": [9, 15], "imagefaceratiofilt": [9, 15], "imagensfwfilt": [9, 15], "imagepairsimilarityfilt": [9, 15], "imageshapefilt": [9, 15], "imagesizefilt": [9, 15], "imagetaggingmapp": [11, 15], "imagetextmatchingfilt": [9, 15], "imagetextsimilarityfilt": [9, 15], "imagewatermarkfilt": [9, 15], "impact": 11, "implement": [3, 8], "implic": 11, "import": [6, 11], "improv": 3, "in_memory_max_s": 3, "includ": [1, 3, 8, 9, 11], "incorrect": 11, "increas": 11, "independ": [3, 9, 11], "index": [3, 15], "indic": [1, 3, 11], "infer": 11, "influenc": 11, "info": [4, 5, 11], "inform": [1, 3, 5, 8, 9, 11, 12], "init": 2, "init_config": [2, 15], "initi": [1, 2, 3, 4, 6, 8, 9, 10, 11, 12], "inlin": 11, "input": [3, 5, 6, 8, 9, 10, 11, 12], "input_kei": [6, 11], "input_templ": [6, 11], "input_text": 11, "insert": 11, "insert_random_char": 11, "insight": 3, "insight_min": 3, "instanc": 5, "instead": [4, 7], "instruct": 11, "int": [3, 4, 6, 8, 9, 11, 12], "integ": 11, "intellig": 11, "interact": 11, "interfac": 11, "intermedi": [5, 8, 9], "interv": 3, "intric": 11, "introspect": 11, "invert": 7, "invok": 11, "involv": 11, "inward": 11, "iou": 9, "iou_thr": 9, "ipv4": 11, "ipv6": 11, "is_cuda_avail": [0, 16], "is_filt": 3, "item": [3, 5, 11], "iter": [3, 9, 11], "itm": 9, "its": [4, 5, 8, 11], "j": 4, "jaccard": 8, "jaccard_threshold": 8, "jaid": 9, "japanes": 11, "java": 4, "jaw": 11, "jl": 4, "join": 9, "join_char": 7, "jordan": 11, "jp2t": 11, "json": [2, 3, 4, 9], "json_ind": 2, "jsonargpars": [2, 3], "jsonformatt": [4, 15], "jsonl": [3, 4], "jsonnet": 2, "judg": 11, "just": 3, "kanji": 11, "karg": 3, "kb": 9, "kdd": 15, "keep": [3, 5, 8, 9, 11], "keep_alphabet": 11, "keep_candidate_mod": 11, "keep_hashes_in_res_d": 3, "keep_in_memori": 3, "keep_numb": 11, "keep_original_sampl": 11, "keep_punc": 11, "keep_stats_in_res_d": 3, "keep_tag_num": 11, "kei": [3, 4, 5, 6, 9, 10, 11, 12], "kept": [8, 9, 11], "kernel": 11, "kernel_s": 11, "keyboard": 11, "keyboard_error_char": 11, "keyfram": 9, "keyvaluegroup": 10, "keyword": [6, 9, 11], "keyword_kei": 11, "kib": 3, "kind": [9, 11], "knowledg": 11, "kong": 11, "kpyu": 11, "kwarg": [3, 4, 5, 6, 8, 9, 10, 11, 12], "ky\u016bjitai": 11, "l14": 9, "lai": 11, "lambda": 11, "lambda_str": 11, "lang": [9, 11], "lang_or_model": 1, "languag": [1, 8, 9, 11], "languageidscorefilt": [9, 15], "languages_to_detect": 9, "larg": 9, "large_area_ratio_thr": 9, "larger": [9, 11, 12], "largest": [9, 12], "last": [9, 11], "latex": 11, "latter": [9, 11], "le": [8, 11, 12], "lead": 11, "leader": 11, "leadership": 11, "learn": 11, "leav": 11, "left": [9, 11], "len": 11, "length": [3, 4, 6, 9, 11], "less": [3, 8, 9, 11, 12], "letter": 11, "level": [3, 5, 6, 7, 8, 9, 11, 12], "lexic": 1, "librari": 11, "light_rag_extract": 11, "like": [3, 7, 8, 9, 11], "limit": [6, 9], "line": [1, 2, 9, 11], "linearms": 9, "link": [3, 11], "list": [2, 3, 4, 5, 7, 9, 10, 11], "liter": 11, "lkove": 11, "ll": 11, "llama3": 11, "llm": 11, "load": [1, 3, 4, 5, 11], "load_analysis_r": 3, "load_data_np": 3, "load_dataset": 4, "load_formatt": [4, 15], "load_from_disk": 3, "load_op": [5, 15], "local": 4, "localformatt": [4, 15], "localhost": 8, "locat": [9, 11], "lock": 11, "logo": 9, "long": 11, "longer": 9, "look": 11, "lot": 7, "love": 11, "low": 9, "lower": [7, 8, 9, 11, 12], "lower_cas": 7, "lower_percentil": 12, "lower_rank": 12, "lowercas": [7, 8, 11], "lsh": 8, "lua": 4, "luma_onli": 11, "m": [4, 11], "machin": 3, "macro": 11, "magnitud": 9, "mai": [9, 11], "main": [9, 11], "mainland": 11, "mainli": 3, "make": 11, "makefil": 4, "manag": [3, 11], "mani": 11, "manner": 3, "map": [3, 11], "mapper": [3, 5, 15], "mark": 11, "markdown": 4, "match": [8, 9, 11], "max": [3, 4, 6, 8, 9, 11], "max_area_ratio": 9, "max_batch_s": 3, "max_col": 11, "max_dur": 9, "max_face_count": 9, "max_glean": 11, "max_height": [9, 11], "max_len": [9, 11], "max_num": 9, "max_ppl": 9, "max_ratio": [9, 11], "max_recal": 9, "max_sampl": 4, "max_scor": 9, "max_siz": 9, "max_snr": 9, "max_token": 11, "max_token_num": 6, "max_valu": 9, "max_width": [9, 11], "maximum": [3, 9, 11], "maximumlinelengthfilt": [9, 15], "maxsiz": 9, "mb": [3, 9], "md": 4, "md5": 8, "mean": [1, 3, 11], "measur": 11, "meet": [9, 11], "mem": 3, "member": 11, "memori": 3, "merg": [2, 4, 7, 9], "merge_config": [2, 15], "merge_on_whitespace_tab_newlin": [7, 15], "messag": [6, 11], "meta": [2, 3, 4], "metadata": [8, 11, 12], "method": [1, 3, 4, 6, 7, 8, 9, 10, 11, 12], "metric": [3, 5, 8, 9], "mib": 3, "middl": [9, 11], "might": [9, 11], "min": [3, 8, 9, 11], "min_action_num": 9, "min_area_ratio": 9, "min_col": 11, "min_content_v": 11, "min_delta_hsv": 11, "min_dependency_num": 9, "min_dur": 9, "min_face_count": 9, "min_frame_threshold": 11, "min_height": [9, 11], "min_last_split_dur": 11, "min_len": [9, 11], "min_num": 9, "min_ratio": [9, 11], "min_recal": 9, "min_repeat_sentence_length": 11, "min_scene_len": 11, "min_scor": 9, "min_siz": 9, "min_snr": 9, "min_valu": 9, "min_width": [9, 11], "mine": 3, "minhash": 8, "minhashlsh": 8, "mini_action_num": 9, "mini_dependency_num": 9, "minim": 8, "minimum": [9, 11], "miss": 11, "mission": 11, "mit": 11, "mix": [4, 11], "mixtur": 4, "mixtureformatt": [4, 15], "mnb": 11, "modal": 15, "mode": [9, 11], "model": [1, 6, 7, 8, 9, 11, 15], "model_func": 7, "model_param": [6, 11], "modif": 3, "modul": [4, 15], "moment": 11, "monitor": [3, 15], "monitor_all_resourc": 3, "monitor_current_resourc": 3, "monitor_func": 3, "more": [3, 9, 11, 15], "most": [3, 11], "mostrelavantentitiesaggreg": 6, "motion": 9, "multi": [9, 11, 12, 15], "multifil": 2, "multilin": 11, "multipl": [2, 3, 4, 7, 8, 9, 11], "must": [4, 5, 6, 9, 11], "mutual": 11, "my": 3, "n": [6, 7, 9, 11], "n1": 11, "n2": 11, "n3": 11, "n4": 11, "naivegroup": 10, "nalex": 11, "name": [1, 3, 4, 5, 6, 9, 11], "namespac": [2, 3], "narrow": 11, "natur": 11, "nb": 11, "nearbi": 11, "necessari": 11, "need": [3, 7, 9, 11, 12], "neg": [8, 11], "nentity_typ": 11, "nest": [3, 6, 10, 11], "nestedaggreg": 6, "nesteddataset": [3, 15], "new": [3, 4, 11], "new_cfg": 2, "new_lin": 7, "nexampl": 11, "nfc": 11, "nfd": 11, "nfkc": 11, "nfkd": 11, "nfor": 11, "nformat": 11, "ngiven": 11, "nicknam": 11, "nickname_kei": 11, "nit": 11, "nlpaug": 11, "nlpaugenmapp": [11, 15], "nlpcda": 11, "nlpcdazhmapp": [11, 15], "nm": 9, "nmf": 9, "nmf_iter_num": 9, "nod": 11, "node": 3, "nois": 11, "non": [7, 8, 11], "none": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "nonetyp": [8, 11, 12], "nonzero": 3, "noqa": 9, "normal": [9, 11], "note": 11, "notic": [3, 11], "noutput": 11, "now": [3, 7, 11], "nsfw": 9, "nsfw_image_detect": 9, "ntext": 11, "nthe": 11, "ntheir": 11, "nthen": 11, "ntogeth": 11, "null_valu": 4, "num": [6, 11], "num_band": 8, "num_block": 8, "num_inference_step": 11, "num_permut": 8, "num_proc": [1, 3, 4], "num_rows_per_band": 8, "number": [1, 3, 4, 5, 6, 8, 9, 11, 12], "numer": [9, 11], "nwhile": 11, "n\u4e0d\u7518\u5fc3\u7684\u767d\u9aa8\u7cbe\u7b2c\u4e09\u6b21\u5316\u4f5c\u8001\u516c\u516c\u6765\u8bf1\u9a97": 6, "n\u4e0e": 6, "n\u4eba\u72691": 6, "n\u4ed6\u4eec\u4e0d\u518d\u662f\u5355\u7eaf\u7684\u6267\u884c\u8005": 11, "n\u4ee5\u4e0b\u662f\u539f\u59cb\u95ee\u7b54\u5bf9": 11, "n\u4f18\u5316\u540e\u7684\u56de\u7b54": 11, "n\u4f18\u5316\u540e\u7684\u95ee\u9898": 11, "n\u4f60\u5bf9\u5404\u4e2a": 6, "n\u5176\u4e2d\u5173\u4e8e\u8d3e\u5e9c\u5185\u90e8\u6597\u4e89\u7684\u90e8\u5206\u5c24\u5176\u7cbe\u5f69": 11, "n\u5206\u6790\u63a8\u7406": 11, "n\u53f7\u79f0\u9f50\u5929\u5927\u5723": 6, "n\u5510\u50e7\u5e08\u5f92\u56db\u4eba\u884c\u81f3\u767d\u864e\u5cad": 6, "n\u5510\u50e7\u5e08\u5f92\u5728\u767d\u864e\u5cad\u4e09\u9047\u767d\u9aa8\u7cbe\u53d8\u5316\u8bf1\u60d1": 6, "n\u5982\u4e0b\u662f\u4e00\u6761\u793a\u4f8b\u6570\u636e": 11, "n\u5996\u602a\u518d\u53d8\u8001\u5987\u5bfb\u5973": 6, "n\u6240\u4ee5": 11, "n\u6309\u7167\u4ee5\u4e0b\u683c\u5f0f\u8f93\u51fa": 11, "n\u63cf\u8ff0\u4e86\u4e66\u4e2d\u7684\u4e24\u4e2a\u5973\u6027\u89d2\u8272\u4e4b\u95f4\u56f4\u7ed5\u6743\u529b\u5c55\u5f00\u7684\u7ade\u4e89": 11, "n\u6587\u6863\u603b\u7ed3": 6, "n\u6587\u6863\u788e\u7247": 6, "n\u6700\u7ec8": 6, "n\u6821\u51c6\u540e\u7684\u56de\u7b54": 11, "n\u6821\u51c6\u540e\u7684\u95ee\u9898": 11, "n\u751f\u6210\u7684\u65b0\u56de\u7b54": 11, "n\u751f\u6210\u8be5\u56de\u7b54\u7684\u539f\u56e0": 11, "n\u767d\u9aa8\u7cbe\u9996\u6b21\u53d8\u8eab\u5c11\u5973\u9001\u658b": 6, "n\u8981\u6c42": [6, 11], "n\u968f\u7740\u4e0e\u534e\u76db\u987f\u7684\u901a\u8baf\u5728\u80cc\u666f\u4e2d\u55e1\u55e1\u4f5c\u54cd": 11, "n\u968f\u7740\u4e0e\u661f\u8fb0\u7684\u8054\u7cfb\u53d8\u5f97\u66f4\u52a0\u7262\u56fa": 11, "object": [1, 2, 3, 9], "objet": 9, "observ": 11, "obtain": [3, 7], "ocr": [9, 11], "ocr_error_char": 11, "oe": 11, "offer": 11, "offerd": 11, "offici": 9, "omit": 9, "one": [1, 2, 7, 8, 9, 10, 11], "onli": [3, 8, 9, 11], "op": [3, 15], "op_nam": 3, "open": [5, 8, 11], "open_monitor": 3, "openai": 9, "opencv": [9, 11], "opened_aug_method": 11, "oper": [3, 9], "opt": 11, "optic": 9, "optim": [8, 11], "optimizeqamapp": [11, 15], "optimizequerymapp": [11, 15], "optimizeresponsemapp": [11, 15], "option": [1, 3, 4, 11], "order": [3, 6, 11, 12], "org": [9, 11], "organ": 11, "ori_cfg": 2, "ori_config": 2, "origin": [2, 3, 9, 11], "other": [3, 9, 11], "otherwis": 11, "our": 11, "out": 9, "output": [5, 6, 11], "output_kei": [6, 11], "output_path": 1, "output_pattern": [6, 11], "output_pattern_templ": [6, 11], "ov4": 11, "over": 11, "overal": 1, "overall_result": 1, "overallanalysi": [1, 3, 15], "overarch": 11, "overlap": [9, 11], "overlap_len": 11, "overrid": 3, "overrul": 9, "overwrit": [2, 11], "overwrite_output": 11, "ovl": 11, "owl": 9, "owlvit": 9, "own": 11, "p": [3, 11], "packag": 4, "page": 15, "pai": 11, "pair": [3, 5, 8, 9, 11], "pairpreferencemapp": [11, 15], "palpabl": 11, "panda": 1, "paper": 9, "param": [1, 2, 4, 6, 7, 8, 11], "paramet": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "parent": 11, "parquet": [3, 4], "parquetformatt": [4, 15], "pars": [2, 6, 11], "parse_output": [6, 11], "parser": 2, "parser_mod": 2, "part": 6, "pass": [3, 6, 11], "patch32": 9, "path": [1, 2, 3, 4, 6, 8, 9, 11], "pattern": [6, 8, 11], "paus": 11, "pdf": [4, 9], "peopl": 9, "per": 11, "percentil": [1, 12], "percept": 11, "perform": 3, "perl": 4, "permut": 8, "perplex": 9, "perplexityfilt": [9, 15], "person": 11, "perspect": 11, "phash": 8, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "phrase": 9, "phrasegroundingrecallfilt": [9, 15], "pipelin": 3, "pixel": 11, "pixel_divers": 11, "pixel_valu": 11, "pl": 4, "placehold": 11, "plai": 11, "pleas": [8, 11], "plot": 1, "pm": 4, "pod": 4, "point": 11, "port": 8, "portrai": 11, "posit": [8, 9, 11], "posix": 2, "post": 9, "postproc_func": 1, "postproc_kwarg": 1, "potenti": 11, "power": 11, "practic": 15, "pre": [3, 11], "precomput": 1, "predict": 9, "predictor": 9, "prefer": 11, "prepare_side_config": [2, 15], "present": 11, "prev_fram": 9, "previous": 3, "previous_d": 3, "prob": 8, "prob_threshold": 9, "probabl": [9, 11], "probe": 3, "probe_small_batch": 3, "process": [1, 3, 4, 5, 7, 8, 9, 10, 11, 12, 15], "process_batch": [5, 9, 11], "process_list": 5, "process_singl": [5, 6, 8, 9, 11], "processed_d": 3, "produc": 11, "progress": 11, "project": 9, "prompt": [6, 11], "prompt_kei": 11, "prompt_templ": 11, "properti": 4, "provid": [4, 8, 11], "ps1": 4, "psd1": 4, "psm1": 4, "punctuat": [7, 8, 11], "punctuationnormalizationmapp": [11, 15], "put": 11, "pval_th": 3, "py": [3, 4], "pypi": 9, "pythia": 9, "python": [3, 11], "pythonfilemapp": [11, 15], "pythonlambdamapp": [11, 15], "pytorch": 9, "qa": 11, "qa_exampl": 11, "qa_pair": 11, "qa_pair_templ": 11, "qualiti": 11, "quantil": 1, "queri": [5, 6, 11], "query_attribut": 11, "query_ent": 11, "query_entity_typ": 6, "query_kei": 5, "query_most_relavant_ent": 6, "question": 11, "quieter": 11, "qwen": 11, "qwen1_5": 11, "qwen2": 11, "r": 4, "radiu": 11, "raft": 9, "rai": [4, 8, 11], "ram": 9, "ram_tag_list": 9, "random": [4, 11, 12], "random_ani": 11, "random_sampl": 4, "randomli": [4, 11], "randomselector": [12, 15], "rang": [3, 9, 11, 12], "rangespecifiedfieldselector": [12, 15], "rank": [3, 6, 9, 11, 12], "rate": 9, "rather": 11, "ratio": [3, 4, 7, 9, 11, 12], "raw": [3, 11], "raw_output": 11, "raybasicdedupl": [8, 15], "raydocumentdedupl": [8, 15], "rayemptyformatt": [4, 11, 15], "rayimagededupl": [8, 15], "rayvideodedupl": [8, 15], "rb": 4, "readi": 11, "real": 11, "reason": 11, "reason_kei": 11, "rebellion": 11, "recal": 9, "recip": 3, "recogn": 9, "recommend": [8, 11], "record": 11, "record_delimit": 11, "recurr": 9, "recursive_summari": 6, "recursively_chunk": 11, "red": 1, "redi": 8, "redis_host": 8, "redis_port": 8, "reduc": [5, 9, 11], "reduce_mod": 9, "refer": [9, 11], "reference_templ": 11, "refin": 7, "refine_single_column": 1, "regard": [8, 11], "region": 11, "regular": 11, "reject": 11, "rejected_kei": 11, "rejected_respons": 11, "rel": 9, "relat": [3, 6, 9, 11], "relation_kei": 11, "relation_pattern": 11, "relationidentitymapp": [11, 15], "relationship": 11, "relationship_descript": 11, "relationship_keyword": 11, "relationship_strength": 11, "relav": 6, "relev": 11, "relevant_char_kei": 11, "reluct": 11, "remot": [3, 11], "remoteformatt": [4, 15], "remov": [3, 5, 7, 9, 11], "remove_column": 3, "removebibliographymapp": [11, 15], "removecommentsmapp": [11, 15], "removeheadermapp": [11, 15], "removelongwordsmapp": [11, 15], "removenonchinesecharacterlmapp": [11, 15], "removerepeatsentencesmapp": [11, 15], "removespecificcharsmapp": [11, 15], "removetabletextmapp": [11, 15], "removewordswithincorrectsubstringsmapp": [11, 15], "rep_len": 9, "repeat": 11, "repetit": 9, "repl": 11, "replac": 11, "replace_equivalent_num": 11, "replace_homophone_char": 11, "replace_similar_word": 11, "replacecontentmapp": [11, 15], "repons": 11, "repositori": 4, "represent": 11, "request": [3, 11], "requir": [8, 9, 11, 12], "rescal": 9, "resiz": [9, 11], "resolut": [9, 11], "reson": 11, "resourc": 3, "resource_analysi": 3, "resource_util_dict": 3, "resource_util_list": 3, "respect": [1, 11], "respons": [5, 6, 11], "response_kei": 5, "response_path": [6, 11], "result": [1, 3, 9], "retain": [9, 11], "retri": [6, 11], "return": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "rever": 11, "revers": [7, 12], "revis": 11, "rewrit": 11, "reykjavik": 11, "right": [9, 11], "rivera": 11, "roi": 11, "roi_kei": 11, "roi_str": 11, "roi_typ": 11, "role": 11, "row": 8, "rst": 4, "rule": [11, 12], "run": [3, 5, 9, 11], "runner": 9, "s2hk": 11, "s2t": 11, "s2tw": 11, "s2twp": 11, "s3": 3, "sac": 9, "said": 11, "salesforc": [9, 11], "sam": 11, "same": [6, 11], "sampl": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12], "sample_algo": 3, "sample_data": 3, "sample_interv": 3, "sample_numb": 4, "sample_ratio": 3, "sampling_fp": 9, "sampling_param": [6, 11], "save": [1, 2, 3, 11], "save_path": 1, "save_stats_in_one_fil": 1, "save_to_disk": 3, "scala": 4, "scale": 11, "scene": 11, "scenedetect": 11, "schedul": 3, "score": [9, 11], "score_threshold": 9, "search": [11, 15], "second": [9, 11], "section": 3, "see": [3, 15], "seed": [4, 11], "seed_fil": 11, "seem": 11, "segment": 11, "select": [3, 4, 5, 9, 11, 12], "select_column": 3, "select_num": 12, "select_ratio": 12, "selector": [5, 15], "self": 10, "semant": 11, "sens": 11, "sentenc": [7, 11], "sentencepiec": 8, "sentencesplitmapp": [11, 15], "separ": [7, 9, 11, 12], "sequenc": [9, 11], "sequenti": 11, "server": 8, "set": [2, 3, 7, 9, 11, 12], "setup_model": 9, "sever": [1, 3, 11], "sh": 4, "shape": 9, "shard": 3, "share": 11, "shift": [9, 11], "shingl": 8, "shinjitai": 11, "shorter": [9, 11], "should": [3, 8, 9, 11], "should_keep_long_word": 11, "should_keep_word_with_incorrect_substr": 11, "show": [1, 3, 11], "show_num": [3, 5, 8], "show_percentil": 1, "show_progress": 11, "shunk031": 9, "signific": [3, 11], "significantli": 11, "silenc": 11, "simhash": 8, "similar": [8, 9, 11], "similar_on": 11, "similar_one_simhash": 11, "similarity_threshold": 11, "simpl": [9, 11], "simpli": 11, "simplifi": 11, "simul": 11, "sinc": 7, "singl": [1, 3, 11], "size": [3, 7, 8, 9, 11], "skip": [2, 3], "skip_check": 2, "skip_export": [1, 3], "skip_non": 2, "skip_return": 3, "slice": 11, "smali": 4, "small": [3, 9, 11], "smaller": [9, 11, 12], "smallest": 12, "snr": 9, "so": [8, 9, 11], "soften": 11, "some": [2, 5, 6, 11], "someth": 11, "sort": [6, 12], "sourc": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], "source_ent": 11, "space": [7, 8], "spec": 3, "special": [7, 9, 11], "specialcharactersfilt": [9, 15], "specif": [1, 3, 5, 8, 9, 11], "specifi": [3, 4, 7, 9, 11, 12], "specifiedfieldfilt": [9, 15], "specifiednumericfield": 9, "specifiednumericfieldfilt": [9, 15], "spectrogram": 11, "speed": 3, "spell": 11, "spelling_error_word": 11, "split": [3, 7, 11], "split_dur": 11, "split_on_newline_tab_whitespac": [7, 15], "split_on_whitespac": [7, 15], "split_pattern": 11, "split_random_word": 11, "split_text_by_punctu": [7, 15], "split_videos_by_dur": 11, "splite": 7, "sql": 4, "stabl": 11, "standard": 11, "start": 11, "stat": [1, 3, 5, 8, 9], "state": [3, 11], "static": 3, "statu": 3, "std": 1, "stderr": 11, "step": 11, "still": 11, "stoical": 11, "stood": 11, "stop": 11, "stopword": [7, 9], "stopwords_dir": 9, "stopwordsfilt": [9, 15], "storage_opt": 3, "store": [1, 3, 4, 5, 8, 9, 11], "store_dir": 3, "stori": 11, "str": [2, 3, 4, 6, 7, 8, 9, 10, 11, 12], "stranger": 11, "strategi": [9, 11], "stream": 11, "strength": 11, "string": [2, 3, 8, 9, 11], "strip": [7, 15], "strip_char": 7, "strip_charact": 7, "structur": [3, 11], "studi": 11, "style": 2, "sub": [1, 6, 7, 8, 11], "sub_doc": 6, "sub_doc_templ": 6, "subset": [3, 4], "substr": 11, "suffix": [4, 9], "suffixfilt": [9, 15], "suitabl": 11, "sum": 8, "summar": 11, "summari": 11, "summary_kei": 11, "super": 11, "superset": 2, "support": [3, 6, 9, 10, 11], "support_text_kei": 11, "suppos": 11, "sure": 11, "survei": 11, "swap": 11, "swap_random_char": 11, "swap_random_word": 11, "sy": 9, "syllabl": 7, "system": [3, 6, 11], "system_prompt": [6, 11], "system_prompt_templ": [6, 11], "t": [3, 4, 7, 8], "t2": 11, "t2hk": 11, "t2jp": 11, "t2tw": 11, "tab": 7, "tabl": [3, 11], "tag": [7, 9, 11], "tag_field_nam": [9, 11], "taiwan": 11, "taiwanes": 11, "take": 9, "take_batch": 3, "taken": 11, "talk": 11, "target": [3, 9, 11, 12], "target_ent": 11, "target_valu": 9, "task": 11, "taylor": 11, "team": 11, "tech": 11, "technolog": 11, "technologi": 11, "temperatur": [6, 11], "templat": [6, 11], "temporarili": [5, 8, 9], "term": 9, "test": 3, "tex": [4, 11], "text": [1, 4, 5, 6, 7, 8, 9, 11], "text_kei": [3, 4, 5, 6, 10, 11], "text_len": [6, 10, 11], "textactionfilt": [9, 15], "textchunkmapp": [11, 15], "textentitydependencyfilt": [9, 15], "textformatt": [4, 15], "textlengthfilt": [9, 15], "than": [3, 4, 7, 8, 9, 11, 12], "thei": [8, 11], "them": [4, 6, 8, 9, 11], "theme": 11, "thi": [3, 4, 5, 7, 8, 9, 11, 12], "think": [3, 11], "those": [3, 9, 11], "threshold": [3, 8, 9, 11], "thresholddetector": 11, "through": 11, "tib": 3, "tiktoken": 11, "time": [3, 11], "timestamp": 3, "to_json": 3, "to_jsonl": 3, "to_parquet": 3, "togeth": [8, 11], "token": [6, 7, 8, 9, 11], "token_func": 7, "tokenizer_model": 8, "tokennumfilt": [9, 15], "too": 11, "top": [9, 11, 12], "top_p": [6, 11], "top_ratio": 12, "topic": 11, "topk": 12, "topk_specified_field_selector": 3, "topkspecifiedfieldselector": [12, 15], "torch_dtyp": 11, "torchvis": 9, "total": [6, 9, 11], "toward": 11, "trace": [3, 5, 8], "trace_batch_mapp": 3, "trace_dedupl": 3, "trace_filt": 3, "trace_mapp": 3, "tracer": [3, 5, 8, 15], "tradit": 11, "train": [3, 11], "transform": [9, 11], "tree": [1, 9], "trepid": 11, "truce": 11, "true": [1, 2, 3, 5, 7, 8, 9, 11, 12], "trust": 11, "trust_remote_cod": [9, 11], "try_num": [6, 11], "tsv": 4, "tsvformatt": [4, 15], "tsx": 4, "tupl": 9, "tuple_delimit": 11, "tw2": 11, "tw2sp": 11, "tw2t": 11, "two": [3, 8, 9, 11], "txt": [4, 9], "type": [2, 3, 4, 6, 11], "u": 11, "uers_prompt_kei": 11, "ulaanbaatar": 11, "un": 9, "uncanni": 11, "undercurr": 11, "underli": 11, "understand": 3, "understood": 11, "uneasi": 11, "unexpect": 11, "unfold": 11, "unicod": 11, "unifi": [3, 4], "unified_format_dataset": 4, "uniform": [3, 9, 11], "uniformli": [9, 11], "unknown": 11, "unless": 3, "unspoken": 11, "up": 11, "update_arg": 3, "upper": 12, "upper_percentil": 12, "upper_rank": 12, "uri": 3, "url": [6, 11], "us": [1, 2, 3, 4, 5, 7, 8, 9, 11, 15], "usabl": 3, "use_words_aug": [7, 9], "useless": 11, "user": 3, "user_prompt": 11, "user_prompt_kei": 11, "usual": [3, 9], "util": [3, 9], "util_th": 3, "v1": 11, "v2": 9, "valu": [2, 3, 5, 8, 9, 10, 11, 12], "var": [5, 8, 9], "variabl": 2, "variant": 11, "vb": 4, "version": [3, 11], "vertic": [9, 11], "vertical_flip": [9, 11], "vid_cap_from_frm_arg": 11, "vid_cap_from_vid_arg": 11, "vid_tag_from_aud_arg": 11, "vid_tag_from_frm_arg": 11, "video": [5, 8, 9, 11], "video_kei": [5, 11], "video_key_1": 11, "video_key_1_filenam": 11, "video_key_2": 11, "video_key_2_filenam": 11, "video_manag": 11, "videoaestheticsfilt": [9, 15], "videoaspectratiofilt": [9, 15], "videocaptioningfromaudiomapp": [11, 15], "videocaptioningfromframesmapp": [11, 15], "videocaptioningfromsummarizermapp": [11, 15], "videocaptioningfromvideomapp": [11, 15], "videodedupl": [8, 15], "videodurationfilt": [9, 15], "videoextractframesmapp": [11, 15], "videofaceblurmapp": [11, 15], "videoffmpegwrappedmapp": [11, 15], "videoframestextsimilarityfilt": [9, 15], "videomotionscorefilt": [9, 15], "videomotionscoreraftfilt": [9, 15], "videonsfwfilt": [9, 15], "videoocrarearatiofilt": [9, 15], "videoremovewatermarkmapp": [11, 15], "videoresizeaspectratiomapp": [11, 15], "videoresizeresolutionmapp": [11, 15], "videoresolutionfilt": [9, 15], "videosplitbydurationmapp": [11, 15], "videosplitbykeyframemapp": [11, 15], "videosplitbyscenemapp": [11, 15], "videotaggingfromaudiomapp": [11, 15], "videotaggingfromframesfilt": [9, 15], "videotaggingfromframesmapp": [11, 15], "videowatermarkfilt": [9, 15], "vietnames": [7, 9], "vision": [9, 11], "visison": 11, "vit": 9, "vllm": 11, "voic": 11, "w": [9, 11], "w1": 4, "w2": 4, "w3": 4, "wa": [3, 11], "wai": [7, 11], "watch": 11, "watermark": [9, 11], "watermark_detector": 9, "we": [3, 4, 8, 9, 11, 15], "weight": [4, 8, 11], "well": 11, "were": 11, "what": [9, 11], "whatev": 11, "when": [3, 4, 5, 6, 8, 9, 11, 12], "where": [3, 11], "whether": [1, 2, 3, 4, 5, 7, 8, 9, 11], "which": [2, 3, 5, 8, 9, 11], "which_entri": 2, "while": 9, "whitespac": [8, 11], "whitespace_charact": 11, "whitespacenormalizationmapp": [11, 15], "who": 11, "whole": [1, 9, 11], "whose": [2, 9, 11], "why": 11, "width": [9, 11], "wight": 11, "wiki": 11, "wikipedia": 11, "wills": 11, "window": [1, 8], "window_s": 8, "window_width": 11, "wise": 3, "within": [9, 11, 12], "without": [6, 7, 11], "won": [3, 8], "word": [7, 9, 11], "word_limit": 6, "wordless": 11, "wordrepetitionfilt": [9, 15], "words_aug_group_s": [7, 9], "words_aug_join_char": [7, 9], "words_augment": [7, 15], "words_refin": [7, 15], "wordsnumfilt": [9, 15], "work": [3, 9, 11], "work_dir": 3, "worker": 3, "workload": 3, "would": 11, "wrapper": 11, "write": 11, "www": 9, "x1": 11, "x2": 11, "xinyu1205": 9, "xml": [4, 9, 11], "xxx": 3, "y1": 11, "y2": 11, "yaml": [2, 11], "ye": 11, "yml": 2, "you": 11, "your": 11, "youth": 11, "z": [6, 11], "zh": [7, 9], "zsh": 4, "zst": 4, "\u4e00\u573a\u8715\u53d8\u5df2\u7ecf\u5f00\u59cb": 11, "\u4e00\u79cd\u65b0\u7684\u51b3\u5fc3": 11, "\u4e00\u80a1\u4e0d\u7965\u7684\u6c14\u606f\u7b3c\u7f69\u7740\u4ed6\u4eec": 11, "\u4e00\u81f4": 11, "\u4e0b\u9762\u662f\u4e00\u4e2a\u4f8b\u5b50\u5e2e\u52a9\u7406\u89e3\u8fd9\u4e00\u8fc7\u7a0b": 11, "\u4e0d\u4e00\u5b9a\u8981\u5c40\u9650\u4e8e\u8f93\u5165": 11, "\u4e0d\u518d\u4ec5\u4ec5\u662f\u89c2\u5bdf\u548c\u62a5\u544a": 11, "\u4e0d\u7528\u5305\u542b\u4e0e": 6, "\u4e0d\u80fd\u4e0e\u8f93\u5165\u7684": 11, "\u4e0d\u8981\u5305\u542b\u4e3b\u89c2\u770b\u6cd5": [6, 11], "\u4e0d\u8981\u641e\u53cd\u4e86": 11, "\u4e0d\u8981\u6dfb\u52a0\u6587\u672c\u4e2d\u6ca1\u6709\u7684\u60c5\u8282": 11, "\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u591a\u4f59\u5185\u5bb9": 11, "\u4e0d\u8981\u8f93\u51fa\u591a\u4f59\u5185\u5bb9": 11, "\u4e0d\u8981\u9057\u6f0f\u60c5\u8282\u7684\u4e3b\u8981\u4eba\u7269": 11, "\u4e0e": 6, "\u4e14\u4ecd\u53ef\u4ee5\u56de\u7b54\u539f\u95ee\u9898": 11, "\u4e14\u4ecd\u53ef\u4ee5\u7531\u539f\u7b54\u6848\u56de\u7b54": 11, "\u4e3a\u540c\u4e00": 6, "\u4e4b\u524d": 11, "\u4e4b\u95f4\u7684\u5173\u7cfb": 11, "\u4e5f\u53ef\u4ee5\u662f\u591a\u8f6e": 11, "\u4e5f\u6df1\u523b\u53cd\u6620\u4e86\u4eba\u7269\u7684\u6027\u683c\u7279\u70b9\u548c\u547d\u8fd0\u8d70\u5411": 11, "\u4e66\u4e2d\u901a\u8fc7\u590d\u6742\u7684\u4eba\u7269\u5173\u7cfb\u5c55\u73b0\u4e86\u5c01\u5efa\u793e\u4f1a\u7684\u5404\u79cd\u77db\u76fe\u51b2\u7a81": 11, "\u4e8b\u5b9e\u6027": 11, "\u4eb2\u751f\u7236\u6bcd\u672a\u77e5": 6, "\u4eba\u7269": 11, "\u4eba\u72691": 11, "\u4eba\u72692": [6, 11], "\u4eba\u72693": [6, 11], "\u4eba\u7269\u8eab\u4efd": 11, "\u4ece\u6587\u672c\u4e2d\u603b\u7ed3": 11, "\u4ece\u88ab\u52a8\u63a5\u53d7\u8005\u8f6c\u53d8\u4e3a\u79ef\u6781\u53c2\u4e0e\u8005": 11, "\u4ed6\u4eec\u5728\u63a5\u4e0b\u6765\u51e0\u4e2a\u5c0f\u65f6\u5185\u505a\u51fa\u7684\u51b3\u5b9a\u53ef\u80fd\u4f1a\u91cd\u65b0\u5b9a\u4e49\u4eba\u7c7b\u5728\u5b87\u5b99\u4e2d\u7684\u4f4d\u7f6e": 11, "\u4ed6\u4eec\u5df2\u6210\u4e3a\u67d0\u4e2a\u8d85\u8d8a\u661f\u8fb0\u4e0e\u6761\u7eb9\u7684\u9886\u57df\u7684\u4fe1\u606f\u5b88\u62a4\u8005": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f55": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f551": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f552": 11, "\u4ee5\u4e0b\u662f\u539f\u59cb\u95ee\u7b54\u5bf9": 11, "\u4ee5\u5185\u7684\u6837\u4f8b\u5982\u4e0b": 6, "\u4ee5\u53ca\u5bf9\u539f\u6587\u67d0\u4e2a\u90e8\u5206\u7684\u7b80\u77ed\u63cf\u8ff0\u6216\u603b\u7ed3": 11, "\u4efb\u52a1": 11, "\u4efb\u52a1\u6f14\u53d8": 11, "\u4f18\u5316\u95ee\u7b54\u5bf9\u4e2d\u7684": 11, "\u4f46\u4ecd\u53ef\u4ee5\u56de\u7b54\u539f\u95ee\u9898": 11, "\u4f46\u4ecd\u53ef\u4ee5\u7531\u539f\u7b54\u6848\u56de\u7b54": 11, "\u4f46\u4ecd\u7136\u9700\u8981\u7b26\u5408\u4e8b\u5b9e": 11, "\u4f46\u662f\u9700\u8981\u4fdd\u6301\u683c\u5f0f\u76f8\u540c": 11, "\u4f60\u597d": 11, "\u4f60\u5c06\u626e\u6f14\u4e00\u4e2a\u6587\u672c\u6458\u5f55\u52a9\u624b\u7684\u89d2\u8272": 11, "\u4f60\u7684\u4e3b\u8981\u4efb\u52a1\u662f\u57fa\u4e8e\u7ed9\u5b9a\u7684\u6587\u7ae0": 11, "\u4f60\u7684\u4efb\u52a1\u662f\u5c06\u4eba\u7269\u4e4b\u95f4\u7684\u79f0\u547c\u65b9\u5f0f": 11, "\u4f60\u7684\u4efb\u52a1\u662f\u6839\u636e\u53c2\u8003\u4fe1\u606f\u4fee\u6539\u95ee\u7b54\u5bf9\u4e2d\u7684\u56de\u7b54": 11, "\u4f60\u7684\u8fd4\u56de\u683c\u5f0f\u5982\u4e0b": 6, "\u4f60\u9700\u8981\u5c3d\u53ef\u80fd\u7cbe\u786e\u5730\u5339\u914d\u5230\u6700\u7b26\u5408\u603b\u7ed3\u5185\u5bb9\u7684\u90a3\u90e8\u5206\u5185\u5bb9": 11, "\u4f7f": 11, "\u4f7f\u5176\u66f4\u52a0\u8be6\u7ec6": 11, "\u4f8b\u5982": 6, "\u4f9d\u65e7\u9003\u4e0d\u8fc7\u91d1\u775b\u706b\u773c": 6, "\u5173\u4e8e": 11, "\u5173\u7cfb\u7528\u4e00\u4e2a\u6216\u591a\u4e2a\u8bcd\u8bed\u8868\u793a": 11, "\u5173\u8054\u5ea6\u7684\u5206\u6790": 6, "\u5176\u4e2d\u5173\u4e8e\u8d3e\u5e9c\u5185\u90e8\u6597\u4e89\u7684\u90e8\u5206\u5c24\u5176\u7cbe\u5f69": 11, "\u51b0\u5c9b\u7684\u9996\u90fd\u662f\u54ea\u91cc\u5462": 11, "\u51b0\u5c9b\u7684\u9996\u90fd\u662f\u96f7\u514b\u96c5\u672a\u514b": 11, "\u51b3\u7b56": 11, "\u51b3\u7b56\u5236\u5b9a": 11, "\u51c6\u786e": 11, "\u51c6\u786e\u5730\u8bc6\u522b\u5e76\u63d0\u53d6\u51fa\u4e0e\u8be5\u603b\u7ed3\u76f8\u5bf9\u5e94\u7684\u539f\u6587\u7247\u6bb5": 11, "\u51fa\u8eab\u80cc\u666f": 6, "\u5206\u6790": 6, "\u5206\u6790\u63a8\u7406": 11, "\u5217\u8868": 6, "\u5219\u4ee5\u4ed6\u4eec\u5927\u80c6\u7684\u65b0\u9891\u7387\u9707\u52a8": 11, "\u5224\u65ad": 11, "\u534e\u76db\u987f": 11, "\u534e\u76db\u987f\u662f\u6b63\u5728\u63a5\u6536\u901a\u8baf\u7684\u5730\u65b9": 11, "\u539f\u56e0": 11, "\u539f\u6587": 11, "\u539f\u6587\u6458\u5f55": 11, "\u53c2\u8003\u4fe1\u606f": 11, "\u53c2\u8003\u5982\u4e0b\u6837\u4f8b": 6, "\u53c8\u88ab\u609f\u7a7a\u51fb\u6bd9": 6, "\u53e6\u4e00\u4e2a\u8eab\u4efd": 11, "\u53ea\u5bf9\u6587\u6863\u4e2d\u4e0e": 6, "\u53ea\u62bd\u53d6\u60c5\u8282\u4e2d\u7684\u4e3b\u8981\u4eba\u7269": 11, "\u53ea\u8f93\u51fa\u4f18\u5316\u540e\u7684": 11, "\u53ea\u8f93\u51fa\u4f18\u5316\u540e\u7684\u56de\u7b54": 11, "\u53ea\u8f93\u51fa\u6587\u6863\u603b\u7ed3\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u5185\u5bb9": 6, "\u53ea\u8f93\u51fa\u6821\u51c6\u540e\u7684\u56de\u7b54": 11, "\u53ea\u8f93\u51fa\u6821\u51c6\u540e\u7684\u95ee\u9898": 11, "\u53ef\u80fd\u662f\u591a\u8f6e\u5bf9\u8bdd": 11, "\u548c": 11, "\u5510\u50e7\u660e\u767d\u4e86\u81ea\u5df1\u7684\u8bef\u89e3": 6, "\u5510\u50e7\u8d23\u602a\u609f\u7a7a": 6, "\u56de\u7b54": 11, "\u56e2\u961f": 11, "\u56e2\u961f\u6536\u5230\u6765\u81ea\u534e\u76db\u987f\u7684\u901a\u8baf": 11, "\u56e2\u961f\u7684\u4efb\u52a1\u5df2\u7ecf\u6f14\u53d8": 11, "\u56e2\u961f\u76f4\u63a5\u53c2\u4e0e\u675c\u5c14\u585e\u884c\u52a8": 11, "\u56e2\u961f\u7ad9\u7acb\u7740": 11, "\u56e2\u961f\u88ab\u63cf\u7ed8\u6210\u4e00\u7fa4\u4ece\u88ab\u52a8\u89c2\u5bdf\u8005\u8f6c\u53d8\u4e3a\u79ef\u6781\u53c2\u4e0e\u8005\u7684\u4eba": 11, "\u5728\u89c2\u97f3\u83e9\u8428\u7684\u5e2e\u52a9\u4e0b": 6, "\u5728\u8bed\u8a00\u98ce\u683c": 11, "\u5730\u70b9": 11, "\u5916\u90e8\u5f71\u54cd": 11, "\u5982\u679c\u4e24\u4e2a\u4eba\u7269\u8eab\u4efd\u662f\u540c\u4e00\u4e2a\u4eba": 11, "\u5982\u679c\u5b58\u5728\u591a\u4e2a\u53ef\u80fd\u7684\u7b54\u6848": 11, "\u5b57\u4ee5\u5185": 6, "\u5b57\u6570\u9650\u5236\u5728": 6, "\u5b59\u609f\u7a7a": 6, "\u5b83\u8bb2\u8ff0\u4e86\u8d3e\u5b9d\u7389": 11, "\u5b83\u9700\u8981\u4e00\u79cd\u65b0\u7684\u89c6\u89d2": 11, "\u5b87\u5b99\u610f\u4e49": 11, "\u5bf9": 11, "\u5bf9\u6587\u672c\u7684\u60c5\u8282\u8fdb\u884c\u5206\u70b9\u603b\u7ed3": 11, "\u5bf9\u8bdd\u4e2d\u7684\u7d27\u5f20\u60c5\u7eea\u901a\u8fc7\u561f\u561f\u58f0\u548c\u9759\u7535\u566a\u97f3\u8d2f\u7a7f\u59cb\u7ec8": 11, "\u5bf9\u95ee\u7b54\u5bf9\u4e2d\u7684": 11, "\u5c06\u5176\u66f4\u52a0\u8be6\u7ec6\u5177\u4f53": 11, "\u5c06\u8fd9\u4e9b\u6587\u6863\u6574\u5408\u6210\u4e00\u4e2a\u6587\u6863\u603b\u7ed3": 6, "\u5c0f\u7ec4\u5f00\u59cb\u5904\u7406\u9010\u6e10\u6210\u5f62\u7684\u8b66\u544a": 11, "\u5c3d\u91cf\u4e0d\u8981\u9057\u6f0f\u5185\u5bb9": 11, "\u5c3d\u91cf\u4f7f\u7528\u539f\u6587\u4e13\u6709\u540d\u8bcd": 6, "\u5c55\u793a\u4e86\u4ed6\u4eec\u89d2\u8272\u7684\u52a8\u6001\u53d8\u5316": 11, "\u5e08\u5085\u66f4\u52a0\u4e0d\u6ee1": 6, "\u5e08\u7236\u662f\u5510\u50e7\u7384\u5958": 6, "\u5e76\u4e14\u4ece\u539f\u6587\u6458\u5f55\u6700\u80fd\u8bf4\u660e\u8be5": 11, "\u5e76\u62bd\u53d6\u4e0e\u60c5\u8282\u76f8\u5173\u7684\u4eba\u7269": 11, "\u5fc5\u8981\u65f6\u53ef\u4ee5\u52a0\u4e00\u4e2a\u5f62\u5bb9\u8bcd\u6765\u63cf\u8ff0\u8fd9\u6bb5\u5173\u7cfb": 11, "\u5fc5\u987b\u6210\u5bf9\u51fa\u73b0": 11, "\u5fc5\u987b\u6309\u7167\u4ee5\u4e0b\u6807\u8bb0\u683c\u5f0f": 11, "\u5fc5\u987b\u6309\u7167\u4ee5\u4e0b\u6807\u8bb0\u683c\u5f0f\u8f93\u51fa": 11, "\u5ff5\u7d27\u7b8d\u5492\u60e9\u7f5a": 6, "\u603b\u7ed3": [6, 11], "\u603b\u7ed3\u4e00\u4e9b\u4e0e": 6, "\u603b\u7ed3\u51fa\u76f8\u5e94\u89c4\u77e9": 11, "\u603b\u7ed3\u683c\u5f0f\u5982\u4e0b": 11, "\u603b\u7ed3\u7684\u957f\u5ea6\u4e0e\u6587\u6863\u788e\u7247\u7684\u5e73\u5747\u957f\u5ea6\u57fa\u672c\u4e00\u81f4": 6, "\u609f\u7a7a\u5c61\u6b21\u8bc6\u7834\u51fb\u6bd9\u5996\u602a\u5374\u906d\u8bef\u89e3": 6, "\u60c5\u8282": 11, "\u60c5\u82821": 11, "\u60c5\u82822": 11, "\u60c5\u82823": 11, "\u60c5\u8282\u63cf\u8ff0": 11, "\u6216\u8005\u5c06\u4ed6\u4eec\u7f6e\u4e8e\u65e0\u77e5\u548c\u6f5c\u5728\u5371\u9669\u4e4b\u4e2d": 11, "\u6240\u4ee5": 11, "\u6267\u884c\u5176\u6f14\u53d8\u540e\u7684\u76ee\u6807\u548c\u6d3b\u52a8": 11, "\u6280\u672f": 11, "\u6309\u7167\u4f60\u7684\u7406\u89e3": 11, "\u63d0\u4f9b\u7684": 11, "\u63d0\u53d6\u51fa\u6765": 11, "\u6458\u5f55\u7684\u793a\u4f8b\u5e94\u8be5\u7b80\u77ed": 11, "\u6587\u672c": 11, "\u6587\u6863\u788e\u7247": 6, "\u65b0\u751f\u6210\u7684": 11, "\u662f": 11, "\u662f\u4e2d\u56fd\u53e4\u5178\u5c0f\u8bf4\u56db\u5927\u540d\u8457\u4e4b\u4e00": 11, "\u6635\u79f0": 11, "\u663e\u7136": 11, "\u663e\u793a\u51fa\u76ee\u6807\u548c\u6d3b\u52a8\u7684\u91cd\u5927\u8f6c\u53d8": 11, "\u66fe\u62dc\u83e9\u63d0\u7956\u5e08\u5b66\u827a": 6, "\u6700\u4e3a\u76f8\u5173\u7684": 6, "\u6700\u6015\u89c2\u4e16\u97f3\u83e9\u8428\u548c\u7d27\u7b8d\u5492": 6, "\u6700\u76f8\u5173\u7684\u4e00\u4e9b": 6, "\u6700\u7ec8\u89c2\u97f3\u76f8\u52a9\u771f\u76f8\u5927\u767d": 6, "\u6709\u5173\u7684\u5185\u5bb9\u8fdb\u884c\u603b\u7ed3": 6, "\u675c\u5c14\u585e\u884c\u52a8": 11, "\u675c\u5c14\u585e\u884c\u52a8\u88ab\u63cf\u8ff0\u4e3a\u4e00\u9879\u5df2\u6f14\u53d8\u4e3a\u4e92\u52a8\u548c\u51c6\u5907\u7684\u4efb\u52a1": 11, "\u6797\u9edb\u7389\u7b49\u4eba\u7684\u7231\u60c5\u6545\u4e8b\u53ca\u56db\u5927\u5bb6\u65cf\u7684\u5174\u8870\u5386\u7a0b": 11, "\u6839\u636e\u63d0\u4f9b\u7684\u4fe1\u606f": 11, "\u6839\u636e\u76f8\u5173\u6587\u6863\u603b\u7ed3": 6, "\u6885\u745f\u540e\u6765\u7684\u76f4\u89c9\u5360\u636e\u4e86\u4e0a\u98ce": 11, "\u6b64\u5916": 11, "\u6ce8\u610f": 11, "\u6ce8\u610f\u76f8\u5173\u4eba\u7269\u9700\u8981\u5728\u5bf9\u5e94\u60c5\u8282\u4e2d\u51fa\u73b0": 11, "\u6ce8\u610f\u8981\u5c3d\u53ef\u80fd\u4fdd\u7559\u6587\u672c\u7684\u4e13\u6709\u540d\u8bcd": [6, 11], "\u6ce8\u610f\u8f93\u51fa\u7684\u662f": 11, "\u7136\u540e\u5199\u51fa\u4e00\u4e2a\u65b0\u7684": 11, "\u7279\u522b\u662f\u738b\u7199\u51e4\u4e0e\u5c24\u4e8c\u59d0\u4e4b\u95f4\u7684\u4e89\u6597": 11, "\u751f\u52a8\u63cf\u7ed8\u4e86\u6743\u529b\u4e89\u593a\u4e0b\u7684\u5973\u6027\u5f62\u8c61": 11, "\u751f\u6210\u7684": 11, "\u7531\u6e05\u4ee3\u4f5c\u5bb6\u66f9\u96ea\u82b9\u521b\u4f5c": 11, "\u7684": [6, 11], "\u7684\u4ec0\u4e48\u5173\u7cfb": 11, "\u7684\u4ee3\u8868\u6027\u793a\u4f8b": 11, "\u7684\u6587\u672c\u4fe1\u606f": 11, "\u7684\u6635\u79f0": 11, "\u7684\u76f8\u5173\u6587\u6863": 6, "\u7684\u8bdd\u9898\u6216\u9886\u57df": 11, "\u76f4\u63a5\u8f93\u51fa\u4f18\u5316\u540e\u7684\u95ee\u7b54\u5bf9": 11, "\u76f8\u5173\u4eba\u7269": 11, "\u76f8\u5173\u7684\u4e00\u4e9b\u6587\u6863": 6, "\u76f8\u540c\u7684\u8bf4\u8bdd\u4eba\u548c\u88ab\u79f0\u547c\u4eba\u6700\u591a\u7ed9\u51fa\u4e00\u4e2a\u6700\u5e38\u7528\u7684\u79f0\u547c": 11, "\u771f\u76f8\u5927\u767d": 6, "\u79ef\u6781\u53c2\u4e0e": 11, "\u79f0\u4e3a": 11, "\u79f0\u547c\u65b9\u5f0f": 11, "\u79f0\u547c\u65b9\u5f0f1": 11, "\u79f0\u547c\u65b9\u5f0f2": 11, "\u79f0\u547c\u65b9\u5f0f3": 11, "\u7acb\u573a\u7b49\u4efb\u4e00\u65b9\u9762\u4e0e\u539f\u56de\u7b54\u76f8\u53cd": 11, "\u7b26\u5408\u539f\u6587\u4e8b\u5b9e": 11, "\u7ea2\u697c\u68a6": 11, "\u7ec4\u7ec7": 11, "\u7ed9\u5b9a\u4e00\u4e9b\u6587\u6863\u788e\u7247": 6, "\u7ed9\u5b9a\u4e00\u6bb5\u6587\u672c": 11, "\u7ed9\u5b9a\u4e0e": 6, "\u7ed9\u5b9a\u4f60\u4e00\u6bb5\u6587\u672c": 11, "\u7ed9\u5b9a\u5173\u4e8e": 11, "\u800c": 11, "\u800c\u4e0d\u662f": 11, "\u800c\u4e14": 11, "\u800c\u662f\u4e92\u52a8\u548c\u51c6\u5907": 11, "\u8054\u7cfb\u4e0a\u4e0b\u6587": 6, "\u8054\u7cfb\u4e0a\u4e0b\u6587\u8bf4\u660e\u524d\u56e0\u540e\u679c": 11, "\u81ea\u52a8\u5ffd\u7565\u4e0a\u4e0b\u6587\u4e0d\u4e00\u81f4\u7684\u7ec6\u8282\u9519\u8bef": 6, "\u81ea\u77f3\u5934\u4e2d\u5b55\u80b2\u800c\u751f": 6, "\u81ea\u8ba4\u6597\u6218\u80dc\u4f5b": 6, "\u82b1\u679c\u5c71\u6c34\u5e18\u6d1e\u7684\u7f8e\u7334\u738b": 6, "\u8499\u53e4\u56fd\u7684\u9996\u90fd\u662f\u4e4c\u5170\u5df4\u6258": 11, "\u8868\u660e\u5176\u5728\u51b3\u7b56\u8fc7\u7a0b\u4e2d\u7684\u91cd\u8981\u6027": 11, "\u88ab\u5b59\u609f\u7a7a\u8bc6\u7834\u6253\u6b7b": 6, "\u88ab\u79f0\u547c\u4eba": 11, "\u897f\u884c\u53d6\u7ecf\u961f\u4f0d\u4e2d\u7684\u5927\u5e08\u5144": 6, "\u8981\u6c42\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 6, "\u8bf4\u8bdd\u4eba": 11, "\u8bf7\u4e0d\u8981\u8f93\u51fa\u4e92\u76f8\u6ca1\u6709\u6635\u79f0\u7684\u79f0\u547c\u65b9\u5f0f": 11, "\u8bf7\u4f18\u5316\u8f93\u5165\u7684\u95ee\u7b54\u5bf9": 11, "\u8bf7\u4f18\u5316\u95ee\u7b54\u5bf9\u4e2d\u7684\u56de\u7b54": 11, "\u8bf7\u4f60\u4ed4\u7ec6\u89c2\u5bdf\u591a\u4e2a\u793a\u4f8b\u6570\u636e\u7684\u8f93\u5165\u548c\u8f93\u51fa": 11, "\u8bf7\u6309\u7167\u4eba\u7269\u7684\u91cd\u8981\u6027\u8fdb\u884c\u6392\u5e8f": 6, "\u8bf7\u6839\u636e\u63d0\u4f9b\u7684": 11, "\u8bf7\u9009\u62e9\u6700\u8d34\u8fd1\u603b\u7ed3\u610f\u601d\u7684\u90a3\u4e2a": 11, "\u8bf7\u95ee\u8499\u53e4\u56fd\u7684\u9996\u90fd\u662f\u54ea\u91cc": 11, "\u8d8a\u91cd\u8981\u4eba\u7269\u5728\u5217\u8868\u8d8a\u524d\u9762": 6, "\u8f93\u51fa\u5173\u7cfb\u4e3a": 11, "\u8f93\u51fa\u5173\u7cfb\u65f6\u4e0d\u8981\u53c2\u6742\u4efb\u4f55\u6807\u70b9\u7b26\u53f7": 11, "\u8f93\u51fa\u683c\u5f0f\u4e3a": 11, "\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 11, "\u8fd8\u4ee5\u5176\u7cbe\u7f8e\u7684\u8bd7\u8bcd\u95fb\u540d": 11, "\u8fd9\u4e00\u4f7f\u547d\u7684\u63d0\u5347\u4e0d\u80fd\u88ab\u89c4\u5219\u548c\u65e2\u5b9a\u534f\u8bae\u6240\u675f\u7f1a": 11, "\u8fd9\u4e9b\u8bd7\u8bcd\u4e0d\u4ec5\u589e\u6dfb\u4e86\u6587\u5b66\u8272\u5f69": 11, "\u8fd9\u5f71\u54cd\u4e86\u4ed6\u4eec\u7684\u51b3\u7b56\u8fc7\u7a0b": 11, "\u8fd9\u79cd\u57fa\u8c03\u4e0d\u662f\u7531\u4e16\u4fd7\u8bbe\u5b9a\u7684": 11, "\u8fd9\u8fb9\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u5f3a\u589e\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6fd6\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u6709\u4f0d\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fdb\u884c\u6821\u51c6": 11, "\u9047\u4e0a\u4e86\u53d8\u5316\u591a\u7aef\u7684\u767d\u9aa8\u7cbe": 6, "\u9075\u5faa\u5982\u4e0b\u7684\u56de\u590d\u683c\u5f0f": 11, "\u90fd\u66f4\u52a0\u8be6\u7ec6": 11, "\u95ee\u9898": 11, "\u9700\u8981\u4f60\u8fdb\u884c\u5408\u7406\u7684\u63a8\u7406\u624d\u80fd\u5f97\u51fa\u7ed3\u8bba": 11, "\u9700\u8981\u5728": 11, "\u9700\u8981\u6b63\u786e\u56de\u7b54\u751f\u6210\u7684": 11, "\u9700\u8981\u6ee1\u8db3\u5982\u4e0b\u8981\u6c42": 11, "\u9700\u8981\u7ed9\u51fa\u8bf4\u8bdd\u4eba\u5bf9\u88ab\u79f0\u547c\u4eba\u7684\u79f0\u547c": 11}, "titles": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.aggregator", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.grouper", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "titleterms": {"": 15, "aggreg": 6, "analysi": 1, "api": 15, "common": 7, "config": 2, "core": 3, "data": 15, "data_juic": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16], "dedupl": 8, "document": 15, "filter": 9, "format": 4, "grouper": 10, "indic": 15, "juicer": 15, "mapper": 11, "op": [5, 6, 7, 8, 9, 10, 11, 12], "refer": 15, "selector": 12, "tabl": 15, "tool": 13, "tutori": 15, "util": 14, "welcom": 15}})
\ No newline at end of file
+Search.setIndex({"alltitles": {"API Reference": [[15, null]], "Indices and Tables": [[15, "indices-and-tables"]], "Module contents": [[0, "module-data_juicer"], [1, "module-data_juicer.analysis"], [2, "module-data_juicer.config"], [3, "module-data_juicer.core"], [4, "module-data_juicer.format"], [5, "module-data_juicer.ops"], [6, "module-data_juicer.ops.aggregator"], [7, "module-data_juicer.ops.common"], [8, "module-data_juicer.ops.deduplicator"], [9, "module-data_juicer.ops.filter"], [10, "module-data_juicer.ops.grouper"], [11, "module-data_juicer.ops.mapper"], [12, "module-data_juicer.ops.selector"], [13, "module-data_juicer.tools"], [14, "module-data_juicer.utils"]], "Submodules": [[1, "submodules"], [2, "submodules"], [3, "submodules"], [4, "submodules"], [5, "submodules"], [6, "submodules"], [7, "submodules"], [8, "submodules"], [9, "submodules"], [10, "submodules"], [11, "submodules"], [12, "submodules"], [14, "submodules"]], "Subpackages": [[0, "subpackages"], [5, "subpackages"]], "Tutorial": [[15, "tutorial"]], "Welcome to data-juicer\u2019s documentation!": [[15, null]], "data_juicer": [[16, null]], "data_juicer package": [[0, null]], "data_juicer.analysis package": [[1, null]], "data_juicer.analysis.collector module": [[1, "module-data_juicer.analysis.collector"]], "data_juicer.analysis.column_wise_analysis module": [[1, "module-data_juicer.analysis.column_wise_analysis"]], "data_juicer.analysis.diversity_analysis module": [[1, "module-data_juicer.analysis.diversity_analysis"]], "data_juicer.analysis.draw module": [[1, "module-data_juicer.analysis.draw"]], "data_juicer.analysis.measure module": [[1, "module-data_juicer.analysis.measure"]], "data_juicer.analysis.overall_analysis module": [[1, "module-data_juicer.analysis.overall_analysis"]], "data_juicer.config package": [[2, null]], "data_juicer.config.config module": [[2, "module-data_juicer.config.config"]], "data_juicer.core package": [[3, null]], "data_juicer.core.adapter module": [[3, "module-data_juicer.core.adapter"]], "data_juicer.core.analyzer module": [[3, "module-data_juicer.core.analyzer"]], "data_juicer.core.data module": [[3, "module-data_juicer.core.data"]], "data_juicer.core.executor module": [[3, "module-data_juicer.core.executor"]], "data_juicer.core.exporter module": [[3, "module-data_juicer.core.exporter"]], "data_juicer.core.monitor module": [[3, "module-data_juicer.core.monitor"]], "data_juicer.core.ray_data module": [[3, "module-data_juicer.core.ray_data"]], "data_juicer.core.ray_executor module": [[3, "module-data_juicer.core.ray_executor"]], "data_juicer.core.tracer module": [[3, "module-data_juicer.core.tracer"]], "data_juicer.format package": [[4, null]], "data_juicer.format.csv_formatter module": [[4, "module-data_juicer.format.csv_formatter"]], "data_juicer.format.empty_formatter module": [[4, "module-data_juicer.format.empty_formatter"]], "data_juicer.format.formatter module": [[4, "module-data_juicer.format.formatter"]], "data_juicer.format.json_formatter module": [[4, "module-data_juicer.format.json_formatter"]], "data_juicer.format.load module": [[4, "module-data_juicer.format.load"]], "data_juicer.format.mixture_formatter module": [[4, "module-data_juicer.format.mixture_formatter"]], "data_juicer.format.parquet_formatter module": [[4, "module-data_juicer.format.parquet_formatter"]], "data_juicer.format.text_formatter module": [[4, "module-data_juicer.format.text_formatter"]], "data_juicer.format.tsv_formatter module": [[4, "module-data_juicer.format.tsv_formatter"]], "data_juicer.ops package": [[5, null]], "data_juicer.ops.aggregator package": [[6, null]], "data_juicer.ops.aggregator.entity_attribute_aggregator module": [[6, "module-data_juicer.ops.aggregator.entity_attribute_aggregator"]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator module": [[6, "module-data_juicer.ops.aggregator.most_relavant_entities_aggregator"]], "data_juicer.ops.aggregator.nested_aggregator module": [[6, "module-data_juicer.ops.aggregator.nested_aggregator"]], "data_juicer.ops.base_op module": [[5, "module-data_juicer.ops.base_op"]], "data_juicer.ops.common package": [[7, null]], "data_juicer.ops.common.helper_func module": [[7, "module-data_juicer.ops.common.helper_func"]], "data_juicer.ops.common.special_characters module": [[7, "module-data_juicer.ops.common.special_characters"]], "data_juicer.ops.deduplicator package": [[8, null]], "data_juicer.ops.deduplicator.document_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.document_deduplicator"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator"]], "data_juicer.ops.deduplicator.image_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.image_deduplicator"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_basic_deduplicator"]], "data_juicer.ops.deduplicator.ray_document_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_document_deduplicator"]], "data_juicer.ops.deduplicator.ray_image_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_image_deduplicator"]], "data_juicer.ops.deduplicator.ray_video_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.ray_video_deduplicator"]], "data_juicer.ops.deduplicator.video_deduplicator module": [[8, "module-data_juicer.ops.deduplicator.video_deduplicator"]], "data_juicer.ops.filter package": [[9, null]], "data_juicer.ops.filter.alphanumeric_filter module": [[9, "module-data_juicer.ops.filter.alphanumeric_filter"]], "data_juicer.ops.filter.audio_duration_filter module": [[9, "module-data_juicer.ops.filter.audio_duration_filter"]], "data_juicer.ops.filter.audio_nmf_snr_filter module": [[9, "module-data_juicer.ops.filter.audio_nmf_snr_filter"]], "data_juicer.ops.filter.audio_size_filter module": [[9, "module-data_juicer.ops.filter.audio_size_filter"]], "data_juicer.ops.filter.average_line_length_filter module": [[9, "module-data_juicer.ops.filter.average_line_length_filter"]], "data_juicer.ops.filter.character_repetition_filter module": [[9, "module-data_juicer.ops.filter.character_repetition_filter"]], "data_juicer.ops.filter.flagged_words_filter module": [[9, "module-data_juicer.ops.filter.flagged_words_filter"]], "data_juicer.ops.filter.image_aesthetics_filter module": [[9, "module-data_juicer.ops.filter.image_aesthetics_filter"]], "data_juicer.ops.filter.image_aspect_ratio_filter module": [[9, "module-data_juicer.ops.filter.image_aspect_ratio_filter"]], "data_juicer.ops.filter.image_face_count_filter module": [[9, "module-data_juicer.ops.filter.image_face_count_filter"]], "data_juicer.ops.filter.image_face_ratio_filter module": [[9, "module-data_juicer.ops.filter.image_face_ratio_filter"]], "data_juicer.ops.filter.image_nsfw_filter module": [[9, "module-data_juicer.ops.filter.image_nsfw_filter"]], "data_juicer.ops.filter.image_pair_similarity_filter module": [[9, "module-data_juicer.ops.filter.image_pair_similarity_filter"]], "data_juicer.ops.filter.image_shape_filter module": [[9, "module-data_juicer.ops.filter.image_shape_filter"]], "data_juicer.ops.filter.image_size_filter module": [[9, "module-data_juicer.ops.filter.image_size_filter"]], "data_juicer.ops.filter.image_text_matching_filter module": [[9, "module-data_juicer.ops.filter.image_text_matching_filter"]], "data_juicer.ops.filter.image_text_similarity_filter module": [[9, "module-data_juicer.ops.filter.image_text_similarity_filter"]], "data_juicer.ops.filter.image_watermark_filter module": [[9, "module-data_juicer.ops.filter.image_watermark_filter"]], "data_juicer.ops.filter.language_id_score_filter module": [[9, "module-data_juicer.ops.filter.language_id_score_filter"]], "data_juicer.ops.filter.maximum_line_length_filter module": [[9, "module-data_juicer.ops.filter.maximum_line_length_filter"]], "data_juicer.ops.filter.perplexity_filter module": [[9, "module-data_juicer.ops.filter.perplexity_filter"]], "data_juicer.ops.filter.phrase_grounding_recall_filter module": [[9, "module-data_juicer.ops.filter.phrase_grounding_recall_filter"]], "data_juicer.ops.filter.special_characters_filter module": [[9, "module-data_juicer.ops.filter.special_characters_filter"]], "data_juicer.ops.filter.specified_field_filter module": [[9, "module-data_juicer.ops.filter.specified_field_filter"]], "data_juicer.ops.filter.specified_numeric_field_filter module": [[9, "module-data_juicer.ops.filter.specified_numeric_field_filter"]], "data_juicer.ops.filter.stopwords_filter module": [[9, "module-data_juicer.ops.filter.stopwords_filter"]], "data_juicer.ops.filter.suffix_filter module": [[9, "module-data_juicer.ops.filter.suffix_filter"]], "data_juicer.ops.filter.text_action_filter module": [[9, "module-data_juicer.ops.filter.text_action_filter"]], "data_juicer.ops.filter.text_entity_dependency_filter module": [[9, "module-data_juicer.ops.filter.text_entity_dependency_filter"]], "data_juicer.ops.filter.text_length_filter module": [[9, "module-data_juicer.ops.filter.text_length_filter"]], "data_juicer.ops.filter.token_num_filter module": [[9, "module-data_juicer.ops.filter.token_num_filter"]], "data_juicer.ops.filter.video_aesthetics_filter module": [[9, "module-data_juicer.ops.filter.video_aesthetics_filter"]], "data_juicer.ops.filter.video_aspect_ratio_filter module": [[9, "module-data_juicer.ops.filter.video_aspect_ratio_filter"]], "data_juicer.ops.filter.video_duration_filter module": [[9, "module-data_juicer.ops.filter.video_duration_filter"]], "data_juicer.ops.filter.video_frames_text_similarity_filter module": [[9, "module-data_juicer.ops.filter.video_frames_text_similarity_filter"]], "data_juicer.ops.filter.video_motion_score_filter module": [[9, "module-data_juicer.ops.filter.video_motion_score_filter"]], "data_juicer.ops.filter.video_motion_score_raft_filter module": [[9, "module-data_juicer.ops.filter.video_motion_score_raft_filter"]], "data_juicer.ops.filter.video_nsfw_filter module": [[9, "module-data_juicer.ops.filter.video_nsfw_filter"]], "data_juicer.ops.filter.video_ocr_area_ratio_filter module": [[9, "module-data_juicer.ops.filter.video_ocr_area_ratio_filter"]], "data_juicer.ops.filter.video_resolution_filter module": [[9, "module-data_juicer.ops.filter.video_resolution_filter"]], "data_juicer.ops.filter.video_tagging_from_frames_filter module": [[9, "module-data_juicer.ops.filter.video_tagging_from_frames_filter"]], "data_juicer.ops.filter.video_watermark_filter module": [[9, "module-data_juicer.ops.filter.video_watermark_filter"]], "data_juicer.ops.filter.word_repetition_filter module": [[9, "module-data_juicer.ops.filter.word_repetition_filter"]], "data_juicer.ops.filter.words_num_filter module": [[9, "module-data_juicer.ops.filter.words_num_filter"]], "data_juicer.ops.grouper package": [[10, null]], "data_juicer.ops.grouper.key_value_grouper module": [[10, "module-data_juicer.ops.grouper.key_value_grouper"]], "data_juicer.ops.grouper.naive_grouper module": [[10, "module-data_juicer.ops.grouper.naive_grouper"]], "data_juicer.ops.load module": [[5, "module-data_juicer.ops.load"]], "data_juicer.ops.mapper package": [[11, null]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper module": [[11, "module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper"]], "data_juicer.ops.mapper.calibrate_qa_mapper module": [[11, "module-data_juicer.ops.mapper.calibrate_qa_mapper"]], "data_juicer.ops.mapper.calibrate_query_mapper module": [[11, "module-data_juicer.ops.mapper.calibrate_query_mapper"]], "data_juicer.ops.mapper.calibrate_response_mapper module": [[11, "module-data_juicer.ops.mapper.calibrate_response_mapper"]], "data_juicer.ops.mapper.chinese_convert_mapper module": [[11, "module-data_juicer.ops.mapper.chinese_convert_mapper"]], "data_juicer.ops.mapper.clean_copyright_mapper module": [[11, "module-data_juicer.ops.mapper.clean_copyright_mapper"]], "data_juicer.ops.mapper.clean_email_mapper module": [[11, "module-data_juicer.ops.mapper.clean_email_mapper"]], "data_juicer.ops.mapper.clean_html_mapper module": [[11, "module-data_juicer.ops.mapper.clean_html_mapper"]], "data_juicer.ops.mapper.clean_ip_mapper module": [[11, "module-data_juicer.ops.mapper.clean_ip_mapper"]], "data_juicer.ops.mapper.clean_links_mapper module": [[11, "module-data_juicer.ops.mapper.clean_links_mapper"]], "data_juicer.ops.mapper.expand_macro_mapper module": [[11, "module-data_juicer.ops.mapper.expand_macro_mapper"]], "data_juicer.ops.mapper.extract_entity_attribute_mapper module": [[11, "module-data_juicer.ops.mapper.extract_entity_attribute_mapper"]], "data_juicer.ops.mapper.extract_entity_relation_mapper module": [[11, "module-data_juicer.ops.mapper.extract_entity_relation_mapper"]], "data_juicer.ops.mapper.extract_event_mapper module": [[11, "module-data_juicer.ops.mapper.extract_event_mapper"]], "data_juicer.ops.mapper.extract_keyword_mapper module": [[11, "module-data_juicer.ops.mapper.extract_keyword_mapper"]], "data_juicer.ops.mapper.extract_nickname_mapper module": [[11, "module-data_juicer.ops.mapper.extract_nickname_mapper"]], "data_juicer.ops.mapper.extract_support_text_mapper module": [[11, "module-data_juicer.ops.mapper.extract_support_text_mapper"]], "data_juicer.ops.mapper.fix_unicode_mapper module": [[11, "module-data_juicer.ops.mapper.fix_unicode_mapper"]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper module": [[11, "module-data_juicer.ops.mapper.generate_qa_from_examples_mapper"]], "data_juicer.ops.mapper.generate_qa_from_text_mapper module": [[11, "module-data_juicer.ops.mapper.generate_qa_from_text_mapper"]], "data_juicer.ops.mapper.image_blur_mapper module": [[11, "module-data_juicer.ops.mapper.image_blur_mapper"]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper module": [[11, "module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper"]], "data_juicer.ops.mapper.image_captioning_mapper module": [[11, "module-data_juicer.ops.mapper.image_captioning_mapper"]], "data_juicer.ops.mapper.image_diffusion_mapper module": [[11, "module-data_juicer.ops.mapper.image_diffusion_mapper"]], "data_juicer.ops.mapper.image_face_blur_mapper module": [[11, "module-data_juicer.ops.mapper.image_face_blur_mapper"]], "data_juicer.ops.mapper.image_tagging_mapper module": [[11, "module-data_juicer.ops.mapper.image_tagging_mapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper module": [[11, "module-data_juicer.ops.mapper.nlpaug_en_mapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper module": [[11, "module-data_juicer.ops.mapper.nlpcda_zh_mapper"]], "data_juicer.ops.mapper.optimize_qa_mapper module": [[11, "module-data_juicer.ops.mapper.optimize_qa_mapper"]], "data_juicer.ops.mapper.optimize_query_mapper module": [[11, "module-data_juicer.ops.mapper.optimize_query_mapper"]], "data_juicer.ops.mapper.optimize_response_mapper module": [[11, "module-data_juicer.ops.mapper.optimize_response_mapper"]], "data_juicer.ops.mapper.pair_preference_mapper module": [[11, "module-data_juicer.ops.mapper.pair_preference_mapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper module": [[11, "module-data_juicer.ops.mapper.punctuation_normalization_mapper"]], "data_juicer.ops.mapper.python_file_mapper module": [[11, "module-data_juicer.ops.mapper.python_file_mapper"]], "data_juicer.ops.mapper.python_lambda_mapper module": [[11, "module-data_juicer.ops.mapper.python_lambda_mapper"]], "data_juicer.ops.mapper.relation_identity_mapper module": [[11, "module-data_juicer.ops.mapper.relation_identity_mapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper module": [[11, "module-data_juicer.ops.mapper.remove_bibliography_mapper"]], "data_juicer.ops.mapper.remove_comments_mapper module": [[11, "module-data_juicer.ops.mapper.remove_comments_mapper"]], "data_juicer.ops.mapper.remove_header_mapper module": [[11, "module-data_juicer.ops.mapper.remove_header_mapper"]], "data_juicer.ops.mapper.remove_long_words_mapper module": [[11, "module-data_juicer.ops.mapper.remove_long_words_mapper"]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper module": [[11, "module-data_juicer.ops.mapper.remove_non_chinese_character_mapper"]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper module": [[11, "module-data_juicer.ops.mapper.remove_repeat_sentences_mapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper module": [[11, "module-data_juicer.ops.mapper.remove_specific_chars_mapper"]], "data_juicer.ops.mapper.remove_table_text_mapper module": [[11, "module-data_juicer.ops.mapper.remove_table_text_mapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper module": [[11, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper"]], "data_juicer.ops.mapper.replace_content_mapper module": [[11, "module-data_juicer.ops.mapper.replace_content_mapper"]], "data_juicer.ops.mapper.sentence_split_mapper module": [[11, "module-data_juicer.ops.mapper.sentence_split_mapper"]], "data_juicer.ops.mapper.text_chunk_mapper module": [[11, "module-data_juicer.ops.mapper.text_chunk_mapper"]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_audio_mapper"]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_frames_mapper"]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper"]], "data_juicer.ops.mapper.video_captioning_from_video_mapper module": [[11, "module-data_juicer.ops.mapper.video_captioning_from_video_mapper"]], "data_juicer.ops.mapper.video_extract_frames_mapper module": [[11, "module-data_juicer.ops.mapper.video_extract_frames_mapper"]], "data_juicer.ops.mapper.video_face_blur_mapper module": [[11, "module-data_juicer.ops.mapper.video_face_blur_mapper"]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper module": [[11, "module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper"]], "data_juicer.ops.mapper.video_remove_watermark_mapper module": [[11, "module-data_juicer.ops.mapper.video_remove_watermark_mapper"]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper module": [[11, "module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper"]], "data_juicer.ops.mapper.video_resize_resolution_mapper module": [[11, "module-data_juicer.ops.mapper.video_resize_resolution_mapper"]], "data_juicer.ops.mapper.video_split_by_duration_mapper module": [[11, "module-data_juicer.ops.mapper.video_split_by_duration_mapper"]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper module": [[11, "module-data_juicer.ops.mapper.video_split_by_key_frame_mapper"]], "data_juicer.ops.mapper.video_split_by_scene_mapper module": [[11, "module-data_juicer.ops.mapper.video_split_by_scene_mapper"]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper module": [[11, "module-data_juicer.ops.mapper.video_tagging_from_audio_mapper"]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper module": [[11, "module-data_juicer.ops.mapper.video_tagging_from_frames_mapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper module": [[11, "module-data_juicer.ops.mapper.whitespace_normalization_mapper"]], "data_juicer.ops.op_fusion module": [[5, "module-data_juicer.ops.op_fusion"]], "data_juicer.ops.selector package": [[12, null]], "data_juicer.ops.selector.frequency_specified_field_selector module": [[12, "module-data_juicer.ops.selector.frequency_specified_field_selector"]], "data_juicer.ops.selector.random_selector module": [[12, "module-data_juicer.ops.selector.random_selector"]], "data_juicer.ops.selector.range_specified_field_selector module": [[12, "module-data_juicer.ops.selector.range_specified_field_selector"]], "data_juicer.ops.selector.topk_specified_field_selector module": [[12, "module-data_juicer.ops.selector.topk_specified_field_selector"]], "data_juicer.tools package": [[13, null]], "data_juicer.utils package": [[14, null]], "data_juicer.utils.asset_utils module": [[14, "module-data_juicer.utils.asset_utils"]], "data_juicer.utils.auto_install_mapping module": [[14, "module-data_juicer.utils.auto_install_mapping"]], "data_juicer.utils.auto_install_utils module": [[14, "module-data_juicer.utils.auto_install_utils"]], "data_juicer.utils.availability_utils module": [[14, "module-data_juicer.utils.availability_utils"]], "data_juicer.utils.cache_utils module": [[14, "module-data_juicer.utils.cache_utils"]], "data_juicer.utils.ckpt_utils module": [[14, "module-data_juicer.utils.ckpt_utils"]], "data_juicer.utils.common_utils module": [[14, "module-data_juicer.utils.common_utils"]], "data_juicer.utils.compress module": [[14, "module-data_juicer.utils.compress"]], "data_juicer.utils.constant module": [[14, "module-data_juicer.utils.constant"]], "data_juicer.utils.file_utils module": [[14, "module-data_juicer.utils.file_utils"]], "data_juicer.utils.fingerprint_utils module": [[14, "module-data_juicer.utils.fingerprint_utils"]], "data_juicer.utils.lazy_loader module": [[14, "module-data_juicer.utils.lazy_loader"]], "data_juicer.utils.logger_utils module": [[14, "module-data_juicer.utils.logger_utils"]], "data_juicer.utils.mm_utils module": [[14, "module-data_juicer.utils.mm_utils"]], "data_juicer.utils.model_utils module": [[14, "module-data_juicer.utils.model_utils"]], "data_juicer.utils.process_utils module": [[14, "module-data_juicer.utils.process_utils"]], "data_juicer.utils.registry module": [[14, "module-data_juicer.utils.registry"]], "data_juicer.utils.resource_utils module": [[14, "module-data_juicer.utils.resource_utils"]], "data_juicer.utils.unittest_utils module": [[14, "module-data_juicer.utils.unittest_utils"]], "}": [[3, "id1"], [3, "id2"], [3, "id3"], [3, "id4"]]}, "docnames": ["data_juicer", "data_juicer.analysis", "data_juicer.config", "data_juicer.core", "data_juicer.format", "data_juicer.ops", "data_juicer.ops.aggregator", "data_juicer.ops.common", "data_juicer.ops.deduplicator", "data_juicer.ops.filter", "data_juicer.ops.grouper", "data_juicer.ops.mapper", "data_juicer.ops.selector", "data_juicer.tools", "data_juicer.utils", "index", "modules"], "envversion": {"sphinx": 62, "sphinx.domains.c": 3, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 9, "sphinx.domains.index": 1, "sphinx.domains.javascript": 3, "sphinx.domains.math": 2, "sphinx.domains.python": 4, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1}, "filenames": ["data_juicer.rst", "data_juicer.analysis.rst", "data_juicer.config.rst", "data_juicer.core.rst", "data_juicer.format.rst", "data_juicer.ops.rst", "data_juicer.ops.aggregator.rst", "data_juicer.ops.common.rst", "data_juicer.ops.deduplicator.rst", "data_juicer.ops.filter.rst", "data_juicer.ops.grouper.rst", "data_juicer.ops.mapper.rst", "data_juicer.ops.selector.rst", "data_juicer.tools.rst", "data_juicer.utils.rst", "index.rst", "modules.rst"], "indexentries": {"__init__() (data_juicer.analysis.collector.texttokendistcollector method)": [[1, "data_juicer.analysis.collector.TextTokenDistCollector.__init__", false]], "__init__() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.__init__", false]], "__init__() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.__init__", false]], "__init__() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.__init__", false]], "__init__() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.__init__", false]], "__init__() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.__init__", false]], "__init__() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.__init__", false]], "__init__() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.__init__", false]], "__init__() (data_juicer.core.adapter.adapter method)": [[3, "data_juicer.core.adapter.Adapter.__init__", false]], "__init__() (data_juicer.core.analyzer method)": [[3, "data_juicer.core.Analyzer.__init__", false]], "__init__() (data_juicer.core.analyzer.analyzer method)": [[3, "data_juicer.core.analyzer.Analyzer.__init__", false]], "__init__() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.__init__", false]], "__init__() (data_juicer.core.data.nesteddatasetdict method)": [[3, "data_juicer.core.data.NestedDatasetDict.__init__", false]], "__init__() (data_juicer.core.data.nestedquerydict method)": [[3, "data_juicer.core.data.NestedQueryDict.__init__", false]], "__init__() (data_juicer.core.executor method)": [[3, "data_juicer.core.Executor.__init__", false]], "__init__() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.__init__", false]], "__init__() (data_juicer.core.exporter method)": [[3, "data_juicer.core.Exporter.__init__", false]], "__init__() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.__init__", false]], "__init__() (data_juicer.core.monitor method)": [[3, "data_juicer.core.Monitor.__init__", false]], "__init__() (data_juicer.core.monitor.monitor method)": [[3, "data_juicer.core.monitor.Monitor.__init__", false]], "__init__() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.__init__", false]], "__init__() (data_juicer.core.ray_data.raydataset method)": [[3, "data_juicer.core.ray_data.RayDataset.__init__", false]], "__init__() (data_juicer.core.ray_executor.rayexecutor method)": [[3, "data_juicer.core.ray_executor.RayExecutor.__init__", false]], "__init__() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.__init__", false]], "__init__() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.__init__", false]], "__init__() (data_juicer.format.csv_formatter.csvformatter method)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.__init__", false]], "__init__() (data_juicer.format.csvformatter method)": [[4, "data_juicer.format.CsvFormatter.__init__", false]], "__init__() (data_juicer.format.empty_formatter.emptyformatter method)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.__init__", false]], "__init__() (data_juicer.format.empty_formatter.rayemptyformatter method)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.__init__", false]], "__init__() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.__init__", false]], "__init__() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.__init__", false]], "__init__() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.__init__", false]], "__init__() (data_juicer.format.json_formatter.jsonformatter method)": [[4, "data_juicer.format.json_formatter.JsonFormatter.__init__", false]], "__init__() (data_juicer.format.jsonformatter method)": [[4, "data_juicer.format.JsonFormatter.__init__", false]], "__init__() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.__init__", false]], "__init__() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.__init__", false]], "__init__() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.__init__", false]], "__init__() (data_juicer.format.parquet_formatter.parquetformatter method)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.__init__", false]], "__init__() (data_juicer.format.parquetformatter method)": [[4, "data_juicer.format.ParquetFormatter.__init__", false]], "__init__() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.__init__", false]], "__init__() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.__init__", false]], "__init__() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.__init__", false]], "__init__() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.__init__", false]], "__init__() (data_juicer.format.tsv_formatter.tsvformatter method)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.__init__", false]], "__init__() (data_juicer.format.tsvformatter method)": [[4, "data_juicer.format.TsvFormatter.__init__", false]], "__init__() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.__init__", false]], "__init__() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.__init__", false]], "__init__() (data_juicer.ops.base_op.aggregator method)": [[5, "data_juicer.ops.base_op.Aggregator.__init__", false]], "__init__() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.__init__", false]], "__init__() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.__init__", false]], "__init__() (data_juicer.ops.base_op.grouper method)": [[5, "data_juicer.ops.base_op.Grouper.__init__", false]], "__init__() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.__init__", false]], "__init__() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.__init__", false]], "__init__() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.__init__", false]], "__init__() (data_juicer.ops.common.helper_func.unionfind method)": [[7, "data_juicer.ops.common.helper_func.UnionFind.__init__", false]], "__init__() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.image_deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_document_deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_image_deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.ray_video_deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.video_deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.__init__", false]], "__init__() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.__init__", false]], "__init__() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.__init__", false]], "__init__() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audio_duration_filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audio_nmf_snr_filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audio_size_filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.__init__", false]], "__init__() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.__init__", false]], "__init__() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_aesthetics_filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_aspect_ratio_filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_face_count_filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_face_ratio_filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_nsfw_filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_pair_similarity_filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_shape_filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_size_filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_text_matching_filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_text_similarity_filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.image_watermark_filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.phrase_grounding_recall_filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.__init__", false]], "__init__() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.__init__", false]], "__init__() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.__init__", false]], "__init__() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter.__init__", false]], "__init__() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.__init__", false]], "__init__() (data_juicer.ops.filter.text_action_filter.textactionfilter method)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.text_entity_dependency_filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.__init__", false]], "__init__() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.__init__", false]], "__init__() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.__init__", false]], "__init__() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_aesthetics_filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_aspect_ratio_filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_duration_filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_frames_text_similarity_filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_motion_score_raft_filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_nsfw_filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_resolution_filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_tagging_from_frames_filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.__init__", false]], "__init__() (data_juicer.ops.filter.video_watermark_filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.__init__", false]], "__init__() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.__init__", false]], "__init__() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.__init__", false]], "__init__() (data_juicer.ops.filter.words_num_filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter.__init__", false]], "__init__() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.__init__", false]], "__init__() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.__init__", false]], "__init__() (data_juicer.ops.grouper.key_value_grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.KeyValueGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naive_grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.naive_grouper.NaiveGrouper.__init__", false]], "__init__() (data_juicer.ops.grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.NaiveGrouper.__init__", false]], "__init__() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.__init__", false]], "__init__() (data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.chinese_convert_mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.CleanEmailMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.CleanIpMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.CleanLinksMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generate_qa_from_text_mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_blur_mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_captioning_mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_diffusion_mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_face_blur_mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.image_tagging_mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.ImageBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.python_file_mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.python_lambda_mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_non_chinese_character_mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_repeat_sentences_mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.replace_content_mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_audio_mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_frames_mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_captioning_from_video_mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_extract_frames_mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_face_blur_mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_remove_watermark_mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_resize_resolution_mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_split_by_duration_mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_split_by_scene_mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_tagging_from_audio_mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.video_tagging_from_frames_mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper.__init__", false]], "__init__() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.__init__", false]], "__init__() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.__init__", false]], "__init__() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.random_selector.randomselector method)": [[12, "data_juicer.ops.selector.random_selector.RandomSelector.__init__", false]], "__init__() (data_juicer.ops.selector.randomselector method)": [[12, "data_juicer.ops.selector.RandomSelector.__init__", false]], "__init__() (data_juicer.ops.selector.range_specified_field_selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.ops.selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector.__init__", false]], "__init__() (data_juicer.utils.auto_install_utils.autoinstaller method)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller.__init__", false]], "__init__() (data_juicer.utils.cache_utils.datasetcachecontrol method)": [[14, "data_juicer.utils.cache_utils.DatasetCacheControl.__init__", false]], "__init__() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.__init__", false]], "__init__() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.__init__", false]], "__init__() (data_juicer.utils.compress.compressmanager method)": [[14, "data_juicer.utils.compress.CompressManager.__init__", false]], "__init__() (data_juicer.utils.fingerprint_utils.hasher method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.__init__", false]], "__init__() (data_juicer.utils.lazy_loader.lazyloader method)": [[14, "data_juicer.utils.lazy_loader.LazyLoader.__init__", false]], "__init__() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.__init__", false]], "__init__() (data_juicer.utils.model_utils.apimodel method)": [[14, "data_juicer.utils.model_utils.APIModel.__init__", false]], "__init__() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.__init__", false]], "adapt_workloads() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.adapt_workloads", false]], "adapt_workloads() (data_juicer.core.adapter.adapter method)": [[3, "data_juicer.core.adapter.Adapter.adapt_workloads", false]], "adapter (class in data_juicer.core)": [[3, "data_juicer.core.Adapter", false]], "adapter (class in data_juicer.core.adapter)": [[3, "data_juicer.core.adapter.Adapter", false]], "add_column() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.add_column", false]], "add_column() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.add_column", false]], "add_message() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.add_message", false]], "add_message() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.add_message", false]], "add_parameters() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.add_parameters", false]], "add_same_content_to_new_column() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.add_same_content_to_new_column", false]], "add_suffix_to_filename() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.add_suffix_to_filename", false]], "add_suffixes() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.add_suffixes", false]], "aggregator (class in data_juicer.ops)": [[5, "data_juicer.ops.Aggregator", false]], "aggregator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Aggregator", false]], "alnum_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.alnum_ratio", false]], "alpha_token_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.alpha_token_ratio", false]], "alphanumericfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AlphanumericFilter", false]], "alphanumericfilter (class in data_juicer.ops.filter.alphanumeric_filter)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter", false]], "analyze() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.analyze", false]], "analyze() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.analyze", false]], "analyze() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.analyze", false]], "analyze() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.analyze", false]], "analyze() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.analyze", false]], "analyze() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.analyze", false]], "analyze_resource_util_list() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.analyze_resource_util_list", false]], "analyze_resource_util_list() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.analyze_resource_util_list", false]], "analyze_single_resource_util() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.analyze_single_resource_util", false]], "analyze_single_resource_util() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.analyze_single_resource_util", false]], "analyze_small_batch() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.analyze_small_batch", false]], "analyze_small_batch() (data_juicer.core.adapter.adapter method)": [[3, "data_juicer.core.adapter.Adapter.analyze_small_batch", false]], "analyzer (class in data_juicer.core)": [[3, "data_juicer.core.Analyzer", false]], "analyzer (class in data_juicer.core.analyzer)": [[3, "data_juicer.core.analyzer.Analyzer", false]], "apimodel (class in data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.APIModel", false]], "aspect_ratios (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.aspect_ratios", false]], "assertdatasetequal() (data_juicer.utils.unittest_utils.datajuicertestcasebase method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.assertDatasetEqual", false]], "attribute_descriptions (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.attribute_descriptions", false]], "attribute_summary() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.attribute_summary", false]], "attribute_summary() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.attribute_summary", false]], "attribute_support_texts (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.attribute_support_texts", false]], "attributes (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.attributes", false]], "audio (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.audio", false]], "audio_duration (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.audio_duration", false]], "audio_nmf_snr (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.audio_nmf_snr", false]], "audio_sizes (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.audio_sizes", false]], "audiodurationfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioDurationFilter", false]], "audiodurationfilter (class in data_juicer.ops.filter.audio_duration_filter)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter", false]], "audioffmpegwrappedmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper", false]], "audioffmpegwrappedmapper (class in data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper)": [[11, "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper", false]], "audionmfsnrfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter", false]], "audionmfsnrfilter (class in data_juicer.ops.filter.audio_nmf_snr_filter)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter", false]], "audiosizefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AudioSizeFilter", false]], "audiosizefilter (class in data_juicer.ops.filter.audio_size_filter)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter", false]], "autoinstaller (class in data_juicer.utils.auto_install_utils)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller", false]], "av_stream_thread_type (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.AV_STREAM_THREAD_TYPE", false]], "avaliable_detectors (data_juicer.ops.mapper.video_split_by_scene_mapper.videosplitbyscenemapper attribute)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.avaliable_detectors", false]], "avaliable_detectors (data_juicer.ops.mapper.videosplitbyscenemapper attribute)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.avaliable_detectors", false]], "averagelinelengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter", false]], "averagelinelengthfilter (class in data_juicer.ops.filter.average_line_length_filter)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter", false]], "avg_line_length (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.avg_line_length", false]], "avg_split_string_list_under_limit() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.avg_split_string_list_under_limit", false]], "basecompressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.BaseCompressor", false]], "baseformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.BaseFormatter", false]], "batch_size_strategy() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.batch_size_strategy", false]], "batch_size_strategy() (data_juicer.core.adapter.adapter method)": [[3, "data_juicer.core.adapter.Adapter.batch_size_strategy", false]], "build_input() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.build_input", false]], "build_input() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.build_input", false]], "cachecompressmanager (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.CacheCompressManager", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_document_deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_image_deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.ray_video_deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.raydocumentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.rayimagededuplicator method)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator.calculate_hash", false]], "calculate_hash() (data_juicer.ops.deduplicator.rayvideodeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator.calculate_hash", false]], "calculate_np() (in module data_juicer.utils.process_utils)": [[14, "data_juicer.utils.process_utils.calculate_np", false]], "calculate_resized_dimensions() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.calculate_resized_dimensions", false]], "calibrateqamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper", false]], "calibrateqamapper (class in data_juicer.ops.mapper.calibrate_qa_mapper)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper", false]], "calibratequerymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper", false]], "calibratequerymapper (class in data_juicer.ops.mapper.calibrate_query_mapper)": [[11, "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper", false]], "calibrateresponsemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper", false]], "calibrateresponsemapper (class in data_juicer.ops.mapper.calibrate_response_mapper)": [[11, "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper", false]], "call_gpt_vision_api() (in module data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.call_gpt_vision_api", false]], "catch_map_batches_exception() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.catch_map_batches_exception", false]], "catch_map_single_exception() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.catch_map_single_exception", false]], "category_to_hist() (data_juicer.analysis.measure.relatedttestmeasure static method)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.category_to_hist", false]], "char_rep_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.char_rep_ratio", false]], "characterrepetitionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter", false]], "characterrepetitionfilter (class in data_juicer.ops.filter.character_repetition_filter)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter", false]], "check() (data_juicer.utils.auto_install_utils.autoinstaller method)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller.check", false]], "check_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ckpt", false]], "check_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.check_model", false]], "check_ops_to_skip() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.check_ops_to_skip", false]], "checkpointmanager (class in data_juicer.utils.ckpt_utils)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager", false]], "chineseconvertmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper", false]], "chineseconvertmapper (class in data_juicer.ops.mapper.chinese_convert_mapper)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper", false]], "cleancopyrightmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper", false]], "cleancopyrightmapper (class in data_juicer.ops.mapper.clean_copyright_mapper)": [[11, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper", false]], "cleanemailmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanEmailMapper", false]], "cleanemailmapper (class in data_juicer.ops.mapper.clean_email_mapper)": [[11, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper", false]], "cleanhtmlmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper", false]], "cleanhtmlmapper (class in data_juicer.ops.mapper.clean_html_mapper)": [[11, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper", false]], "cleanipmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanIpMapper", false]], "cleanipmapper (class in data_juicer.ops.mapper.clean_ip_mapper)": [[11, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper", false]], "cleanlinksmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.CleanLinksMapper", false]], "cleanlinksmapper (class in data_juicer.ops.mapper.clean_links_mapper)": [[11, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper", false]], "cleanup_cache_files() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.cleanup_cache_files", false]], "cleanup_cache_files() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.cleanup_cache_files", false]], "cleanup_cache_files() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.cleanup_cache_files", false]], "cleanup_compressed_cache_files() (in module data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.cleanup_compressed_cache_files", false]], "close_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.close_video", false]], "collect() (data_juicer.analysis.collector.texttokendistcollector method)": [[1, "data_juicer.analysis.collector.TextTokenDistCollector.collect", false]], "columnwiseanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.ColumnWiseAnalysis", false]], "columnwiseanalysis (class in data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis", false]], "compress() (data_juicer.utils.compress.basecompressor static method)": [[14, "data_juicer.utils.compress.BaseCompressor.compress", false]], "compress() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.compress", false]], "compress() (data_juicer.utils.compress.compressmanager method)": [[14, "data_juicer.utils.compress.CompressManager.compress", false]], "compress() (data_juicer.utils.compress.compressor class method)": [[14, "data_juicer.utils.compress.Compressor.compress", false]], "compress() (data_juicer.utils.compress.gzipcompressor static method)": [[14, "data_juicer.utils.compress.GzipCompressor.compress", false]], "compress() (data_juicer.utils.compress.lz4compressor static method)": [[14, "data_juicer.utils.compress.Lz4Compressor.compress", false]], "compress() (data_juicer.utils.compress.zstdcompressor static method)": [[14, "data_juicer.utils.compress.ZstdCompressor.compress", false]], "compress() (in module data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.compress", false]], "compressionoff (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.CompressionOff", false]], "compressmanager (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.CompressManager", false]], "compressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.Compressor", false]], "compressors (data_juicer.utils.compress.compressor attribute)": [[14, "data_juicer.utils.compress.Compressor.compressors", false]], "compute() (data_juicer.analysis.diversity_analysis.diversityanalysis method)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis.compute", false]], "compute() (data_juicer.analysis.diversityanalysis method)": [[1, "data_juicer.analysis.DiversityAnalysis.compute", false]], "compute_flow() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.video_motion_score_raft_filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.compute_flow", false]], "compute_flow() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.compute_flow", false]], "compute_hash() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.image_deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.video_deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.compute_hash", false]], "compute_hash() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.compute_hash", false]], "compute_nmf_snr() (in module data_juicer.ops.filter.audio_nmf_snr_filter)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.compute_nmf_snr", false]], "compute_stats_batched() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.image_aspect_ratio_filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.words_num_filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.compute_stats_batched", false]], "compute_stats_batched() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.compute_stats_batched", false]], "compute_stats_single() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audio_duration_filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audio_nmf_snr_filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audio_size_filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_aesthetics_filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_face_count_filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_face_ratio_filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_nsfw_filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_pair_similarity_filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_shape_filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_size_filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_text_matching_filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_text_similarity_filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.image_watermark_filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.phrase_grounding_recall_filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.text_action_filter.textactionfilter method)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.text_entity_dependency_filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_aesthetics_filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_aspect_ratio_filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_duration_filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_frames_text_similarity_filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_nsfw_filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_resolution_filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_tagging_from_frames_filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.video_watermark_filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.compute_stats_single", false]], "compute_stats_single() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.compute_stats_single", false]], "config_backup() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.config_backup", false]], "context (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.context", false]], "convert_arrow_to_python() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.convert_arrow_to_python", false]], "convert_dict_list_to_list_dict() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.convert_dict_list_to_list_dict", false]], "convert_list_dict_to_dict_list() (in module data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.convert_list_dict_to_dict_list", false]], "convert_to_absolute_paths() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.convert_to_absolute_paths", false]], "copy_data() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.copy_data", false]], "create_directory_if_not_exists() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.create_directory_if_not_exists", false]], "create_replacer() (in module data_juicer.ops.mapper.video_split_by_duration_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.create_replacer", false]], "create_replacer() (in module data_juicer.ops.mapper.video_split_by_key_frame_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.create_replacer", false]], "crossentropymeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.CrossEntropyMeasure", false]], "csvformatter (class in data_juicer.format)": [[4, "data_juicer.format.CsvFormatter", false]], "csvformatter (class in data_juicer.format.csv_formatter)": [[4, "data_juicer.format.csv_formatter.CsvFormatter", false]], "cuda_device_count() (in module data_juicer)": [[0, "data_juicer.cuda_device_count", false]], "cut_video_by_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.cut_video_by_seconds", false]], "data_juicer": [[0, "module-data_juicer", false]], "data_juicer.analysis": [[1, "module-data_juicer.analysis", false]], "data_juicer.analysis.collector": [[1, "module-data_juicer.analysis.collector", false]], "data_juicer.analysis.column_wise_analysis": [[1, "module-data_juicer.analysis.column_wise_analysis", false]], "data_juicer.analysis.diversity_analysis": [[1, "module-data_juicer.analysis.diversity_analysis", false]], "data_juicer.analysis.draw": [[1, "module-data_juicer.analysis.draw", false]], "data_juicer.analysis.measure": [[1, "module-data_juicer.analysis.measure", false]], "data_juicer.analysis.overall_analysis": [[1, "module-data_juicer.analysis.overall_analysis", false]], "data_juicer.config": [[2, "module-data_juicer.config", false]], "data_juicer.config.config": [[2, "module-data_juicer.config.config", false]], "data_juicer.core": [[3, "module-data_juicer.core", false]], "data_juicer.core.adapter": [[3, "module-data_juicer.core.adapter", false]], "data_juicer.core.analyzer": [[3, "module-data_juicer.core.analyzer", false]], "data_juicer.core.data": [[3, "module-data_juicer.core.data", false]], "data_juicer.core.executor": [[3, "module-data_juicer.core.executor", false]], "data_juicer.core.exporter": [[3, "module-data_juicer.core.exporter", false]], "data_juicer.core.monitor": [[3, "module-data_juicer.core.monitor", false]], "data_juicer.core.ray_data": [[3, "module-data_juicer.core.ray_data", false]], "data_juicer.core.ray_executor": [[3, "module-data_juicer.core.ray_executor", false]], "data_juicer.core.tracer": [[3, "module-data_juicer.core.tracer", false]], "data_juicer.format": [[4, "module-data_juicer.format", false]], "data_juicer.format.csv_formatter": [[4, "module-data_juicer.format.csv_formatter", false]], "data_juicer.format.empty_formatter": [[4, "module-data_juicer.format.empty_formatter", false]], "data_juicer.format.formatter": [[4, "module-data_juicer.format.formatter", false]], "data_juicer.format.json_formatter": [[4, "module-data_juicer.format.json_formatter", false]], "data_juicer.format.load": [[4, "module-data_juicer.format.load", false]], "data_juicer.format.mixture_formatter": [[4, "module-data_juicer.format.mixture_formatter", false]], "data_juicer.format.parquet_formatter": [[4, "module-data_juicer.format.parquet_formatter", false]], "data_juicer.format.text_formatter": [[4, "module-data_juicer.format.text_formatter", false]], "data_juicer.format.tsv_formatter": [[4, "module-data_juicer.format.tsv_formatter", false]], "data_juicer.ops": [[5, "module-data_juicer.ops", false]], "data_juicer.ops.aggregator": [[6, "module-data_juicer.ops.aggregator", false]], "data_juicer.ops.aggregator.entity_attribute_aggregator": [[6, "module-data_juicer.ops.aggregator.entity_attribute_aggregator", false]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator": [[6, "module-data_juicer.ops.aggregator.most_relavant_entities_aggregator", false]], "data_juicer.ops.aggregator.nested_aggregator": [[6, "module-data_juicer.ops.aggregator.nested_aggregator", false]], "data_juicer.ops.base_op": [[5, "module-data_juicer.ops.base_op", false]], "data_juicer.ops.common": [[7, "module-data_juicer.ops.common", false]], "data_juicer.ops.common.helper_func": [[7, "module-data_juicer.ops.common.helper_func", false]], "data_juicer.ops.common.special_characters": [[7, "module-data_juicer.ops.common.special_characters", false]], "data_juicer.ops.deduplicator": [[8, "module-data_juicer.ops.deduplicator", false]], "data_juicer.ops.deduplicator.document_deduplicator": [[8, "module-data_juicer.ops.deduplicator.document_deduplicator", false]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[8, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator", false]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[8, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator", false]], "data_juicer.ops.deduplicator.image_deduplicator": [[8, "module-data_juicer.ops.deduplicator.image_deduplicator", false]], "data_juicer.ops.deduplicator.ray_basic_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_basic_deduplicator", false]], "data_juicer.ops.deduplicator.ray_document_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_document_deduplicator", false]], "data_juicer.ops.deduplicator.ray_image_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_image_deduplicator", false]], "data_juicer.ops.deduplicator.ray_video_deduplicator": [[8, "module-data_juicer.ops.deduplicator.ray_video_deduplicator", false]], "data_juicer.ops.deduplicator.video_deduplicator": [[8, "module-data_juicer.ops.deduplicator.video_deduplicator", false]], "data_juicer.ops.filter": [[9, "module-data_juicer.ops.filter", false]], "data_juicer.ops.filter.alphanumeric_filter": [[9, "module-data_juicer.ops.filter.alphanumeric_filter", false]], "data_juicer.ops.filter.audio_duration_filter": [[9, "module-data_juicer.ops.filter.audio_duration_filter", false]], "data_juicer.ops.filter.audio_nmf_snr_filter": [[9, "module-data_juicer.ops.filter.audio_nmf_snr_filter", false]], "data_juicer.ops.filter.audio_size_filter": [[9, "module-data_juicer.ops.filter.audio_size_filter", false]], "data_juicer.ops.filter.average_line_length_filter": [[9, "module-data_juicer.ops.filter.average_line_length_filter", false]], "data_juicer.ops.filter.character_repetition_filter": [[9, "module-data_juicer.ops.filter.character_repetition_filter", false]], "data_juicer.ops.filter.flagged_words_filter": [[9, "module-data_juicer.ops.filter.flagged_words_filter", false]], "data_juicer.ops.filter.image_aesthetics_filter": [[9, "module-data_juicer.ops.filter.image_aesthetics_filter", false]], "data_juicer.ops.filter.image_aspect_ratio_filter": [[9, "module-data_juicer.ops.filter.image_aspect_ratio_filter", false]], "data_juicer.ops.filter.image_face_count_filter": [[9, "module-data_juicer.ops.filter.image_face_count_filter", false]], "data_juicer.ops.filter.image_face_ratio_filter": [[9, "module-data_juicer.ops.filter.image_face_ratio_filter", false]], "data_juicer.ops.filter.image_nsfw_filter": [[9, "module-data_juicer.ops.filter.image_nsfw_filter", false]], "data_juicer.ops.filter.image_pair_similarity_filter": [[9, "module-data_juicer.ops.filter.image_pair_similarity_filter", false]], "data_juicer.ops.filter.image_shape_filter": [[9, "module-data_juicer.ops.filter.image_shape_filter", false]], "data_juicer.ops.filter.image_size_filter": [[9, "module-data_juicer.ops.filter.image_size_filter", false]], "data_juicer.ops.filter.image_text_matching_filter": [[9, "module-data_juicer.ops.filter.image_text_matching_filter", false]], "data_juicer.ops.filter.image_text_similarity_filter": [[9, "module-data_juicer.ops.filter.image_text_similarity_filter", false]], "data_juicer.ops.filter.image_watermark_filter": [[9, "module-data_juicer.ops.filter.image_watermark_filter", false]], "data_juicer.ops.filter.language_id_score_filter": [[9, "module-data_juicer.ops.filter.language_id_score_filter", false]], "data_juicer.ops.filter.maximum_line_length_filter": [[9, "module-data_juicer.ops.filter.maximum_line_length_filter", false]], "data_juicer.ops.filter.perplexity_filter": [[9, "module-data_juicer.ops.filter.perplexity_filter", false]], "data_juicer.ops.filter.phrase_grounding_recall_filter": [[9, "module-data_juicer.ops.filter.phrase_grounding_recall_filter", false]], "data_juicer.ops.filter.special_characters_filter": [[9, "module-data_juicer.ops.filter.special_characters_filter", false]], "data_juicer.ops.filter.specified_field_filter": [[9, "module-data_juicer.ops.filter.specified_field_filter", false]], "data_juicer.ops.filter.specified_numeric_field_filter": [[9, "module-data_juicer.ops.filter.specified_numeric_field_filter", false]], "data_juicer.ops.filter.stopwords_filter": [[9, "module-data_juicer.ops.filter.stopwords_filter", false]], "data_juicer.ops.filter.suffix_filter": [[9, "module-data_juicer.ops.filter.suffix_filter", false]], "data_juicer.ops.filter.text_action_filter": [[9, "module-data_juicer.ops.filter.text_action_filter", false]], "data_juicer.ops.filter.text_entity_dependency_filter": [[9, "module-data_juicer.ops.filter.text_entity_dependency_filter", false]], "data_juicer.ops.filter.text_length_filter": [[9, "module-data_juicer.ops.filter.text_length_filter", false]], "data_juicer.ops.filter.token_num_filter": [[9, "module-data_juicer.ops.filter.token_num_filter", false]], "data_juicer.ops.filter.video_aesthetics_filter": [[9, "module-data_juicer.ops.filter.video_aesthetics_filter", false]], "data_juicer.ops.filter.video_aspect_ratio_filter": [[9, "module-data_juicer.ops.filter.video_aspect_ratio_filter", false]], "data_juicer.ops.filter.video_duration_filter": [[9, "module-data_juicer.ops.filter.video_duration_filter", false]], "data_juicer.ops.filter.video_frames_text_similarity_filter": [[9, "module-data_juicer.ops.filter.video_frames_text_similarity_filter", false]], "data_juicer.ops.filter.video_motion_score_filter": [[9, "module-data_juicer.ops.filter.video_motion_score_filter", false]], "data_juicer.ops.filter.video_motion_score_raft_filter": [[9, "module-data_juicer.ops.filter.video_motion_score_raft_filter", false]], "data_juicer.ops.filter.video_nsfw_filter": [[9, "module-data_juicer.ops.filter.video_nsfw_filter", false]], "data_juicer.ops.filter.video_ocr_area_ratio_filter": [[9, "module-data_juicer.ops.filter.video_ocr_area_ratio_filter", false]], "data_juicer.ops.filter.video_resolution_filter": [[9, "module-data_juicer.ops.filter.video_resolution_filter", false]], "data_juicer.ops.filter.video_tagging_from_frames_filter": [[9, "module-data_juicer.ops.filter.video_tagging_from_frames_filter", false]], "data_juicer.ops.filter.video_watermark_filter": [[9, "module-data_juicer.ops.filter.video_watermark_filter", false]], "data_juicer.ops.filter.word_repetition_filter": [[9, "module-data_juicer.ops.filter.word_repetition_filter", false]], "data_juicer.ops.filter.words_num_filter": [[9, "module-data_juicer.ops.filter.words_num_filter", false]], "data_juicer.ops.grouper": [[10, "module-data_juicer.ops.grouper", false]], "data_juicer.ops.grouper.key_value_grouper": [[10, "module-data_juicer.ops.grouper.key_value_grouper", false]], "data_juicer.ops.grouper.naive_grouper": [[10, "module-data_juicer.ops.grouper.naive_grouper", false]], "data_juicer.ops.load": [[5, "module-data_juicer.ops.load", false]], "data_juicer.ops.mapper": [[11, "module-data_juicer.ops.mapper", false]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper": [[11, "module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper", false]], "data_juicer.ops.mapper.calibrate_qa_mapper": [[11, "module-data_juicer.ops.mapper.calibrate_qa_mapper", false]], "data_juicer.ops.mapper.calibrate_query_mapper": [[11, "module-data_juicer.ops.mapper.calibrate_query_mapper", false]], "data_juicer.ops.mapper.calibrate_response_mapper": [[11, "module-data_juicer.ops.mapper.calibrate_response_mapper", false]], "data_juicer.ops.mapper.chinese_convert_mapper": [[11, "module-data_juicer.ops.mapper.chinese_convert_mapper", false]], "data_juicer.ops.mapper.clean_copyright_mapper": [[11, "module-data_juicer.ops.mapper.clean_copyright_mapper", false]], "data_juicer.ops.mapper.clean_email_mapper": [[11, "module-data_juicer.ops.mapper.clean_email_mapper", false]], "data_juicer.ops.mapper.clean_html_mapper": [[11, "module-data_juicer.ops.mapper.clean_html_mapper", false]], "data_juicer.ops.mapper.clean_ip_mapper": [[11, "module-data_juicer.ops.mapper.clean_ip_mapper", false]], "data_juicer.ops.mapper.clean_links_mapper": [[11, "module-data_juicer.ops.mapper.clean_links_mapper", false]], "data_juicer.ops.mapper.expand_macro_mapper": [[11, "module-data_juicer.ops.mapper.expand_macro_mapper", false]], "data_juicer.ops.mapper.extract_entity_attribute_mapper": [[11, "module-data_juicer.ops.mapper.extract_entity_attribute_mapper", false]], "data_juicer.ops.mapper.extract_entity_relation_mapper": [[11, "module-data_juicer.ops.mapper.extract_entity_relation_mapper", false]], "data_juicer.ops.mapper.extract_event_mapper": [[11, "module-data_juicer.ops.mapper.extract_event_mapper", false]], "data_juicer.ops.mapper.extract_keyword_mapper": [[11, "module-data_juicer.ops.mapper.extract_keyword_mapper", false]], "data_juicer.ops.mapper.extract_nickname_mapper": [[11, "module-data_juicer.ops.mapper.extract_nickname_mapper", false]], "data_juicer.ops.mapper.extract_support_text_mapper": [[11, "module-data_juicer.ops.mapper.extract_support_text_mapper", false]], "data_juicer.ops.mapper.fix_unicode_mapper": [[11, "module-data_juicer.ops.mapper.fix_unicode_mapper", false]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper": [[11, "module-data_juicer.ops.mapper.generate_qa_from_examples_mapper", false]], "data_juicer.ops.mapper.generate_qa_from_text_mapper": [[11, "module-data_juicer.ops.mapper.generate_qa_from_text_mapper", false]], "data_juicer.ops.mapper.image_blur_mapper": [[11, "module-data_juicer.ops.mapper.image_blur_mapper", false]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper": [[11, "module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper", false]], "data_juicer.ops.mapper.image_captioning_mapper": [[11, "module-data_juicer.ops.mapper.image_captioning_mapper", false]], "data_juicer.ops.mapper.image_diffusion_mapper": [[11, "module-data_juicer.ops.mapper.image_diffusion_mapper", false]], "data_juicer.ops.mapper.image_face_blur_mapper": [[11, "module-data_juicer.ops.mapper.image_face_blur_mapper", false]], "data_juicer.ops.mapper.image_tagging_mapper": [[11, "module-data_juicer.ops.mapper.image_tagging_mapper", false]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[11, "module-data_juicer.ops.mapper.nlpaug_en_mapper", false]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[11, "module-data_juicer.ops.mapper.nlpcda_zh_mapper", false]], "data_juicer.ops.mapper.optimize_qa_mapper": [[11, "module-data_juicer.ops.mapper.optimize_qa_mapper", false]], "data_juicer.ops.mapper.optimize_query_mapper": [[11, "module-data_juicer.ops.mapper.optimize_query_mapper", false]], "data_juicer.ops.mapper.optimize_response_mapper": [[11, "module-data_juicer.ops.mapper.optimize_response_mapper", false]], "data_juicer.ops.mapper.pair_preference_mapper": [[11, "module-data_juicer.ops.mapper.pair_preference_mapper", false]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[11, "module-data_juicer.ops.mapper.punctuation_normalization_mapper", false]], "data_juicer.ops.mapper.python_file_mapper": [[11, "module-data_juicer.ops.mapper.python_file_mapper", false]], "data_juicer.ops.mapper.python_lambda_mapper": [[11, "module-data_juicer.ops.mapper.python_lambda_mapper", false]], "data_juicer.ops.mapper.relation_identity_mapper": [[11, "module-data_juicer.ops.mapper.relation_identity_mapper", false]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[11, "module-data_juicer.ops.mapper.remove_bibliography_mapper", false]], "data_juicer.ops.mapper.remove_comments_mapper": [[11, "module-data_juicer.ops.mapper.remove_comments_mapper", false]], "data_juicer.ops.mapper.remove_header_mapper": [[11, "module-data_juicer.ops.mapper.remove_header_mapper", false]], "data_juicer.ops.mapper.remove_long_words_mapper": [[11, "module-data_juicer.ops.mapper.remove_long_words_mapper", false]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper": [[11, "module-data_juicer.ops.mapper.remove_non_chinese_character_mapper", false]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper": [[11, "module-data_juicer.ops.mapper.remove_repeat_sentences_mapper", false]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[11, "module-data_juicer.ops.mapper.remove_specific_chars_mapper", false]], "data_juicer.ops.mapper.remove_table_text_mapper": [[11, "module-data_juicer.ops.mapper.remove_table_text_mapper", false]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[11, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper", false]], "data_juicer.ops.mapper.replace_content_mapper": [[11, "module-data_juicer.ops.mapper.replace_content_mapper", false]], "data_juicer.ops.mapper.sentence_split_mapper": [[11, "module-data_juicer.ops.mapper.sentence_split_mapper", false]], "data_juicer.ops.mapper.text_chunk_mapper": [[11, "module-data_juicer.ops.mapper.text_chunk_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_audio_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_frames_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper", false]], "data_juicer.ops.mapper.video_captioning_from_video_mapper": [[11, "module-data_juicer.ops.mapper.video_captioning_from_video_mapper", false]], "data_juicer.ops.mapper.video_extract_frames_mapper": [[11, "module-data_juicer.ops.mapper.video_extract_frames_mapper", false]], "data_juicer.ops.mapper.video_face_blur_mapper": [[11, "module-data_juicer.ops.mapper.video_face_blur_mapper", false]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper": [[11, "module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper", false]], "data_juicer.ops.mapper.video_remove_watermark_mapper": [[11, "module-data_juicer.ops.mapper.video_remove_watermark_mapper", false]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper": [[11, "module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper", false]], "data_juicer.ops.mapper.video_resize_resolution_mapper": [[11, "module-data_juicer.ops.mapper.video_resize_resolution_mapper", false]], "data_juicer.ops.mapper.video_split_by_duration_mapper": [[11, "module-data_juicer.ops.mapper.video_split_by_duration_mapper", false]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper": [[11, "module-data_juicer.ops.mapper.video_split_by_key_frame_mapper", false]], "data_juicer.ops.mapper.video_split_by_scene_mapper": [[11, "module-data_juicer.ops.mapper.video_split_by_scene_mapper", false]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper": [[11, "module-data_juicer.ops.mapper.video_tagging_from_audio_mapper", false]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper": [[11, "module-data_juicer.ops.mapper.video_tagging_from_frames_mapper", false]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[11, "module-data_juicer.ops.mapper.whitespace_normalization_mapper", false]], "data_juicer.ops.op_fusion": [[5, "module-data_juicer.ops.op_fusion", false]], "data_juicer.ops.selector": [[12, "module-data_juicer.ops.selector", false]], "data_juicer.ops.selector.frequency_specified_field_selector": [[12, "module-data_juicer.ops.selector.frequency_specified_field_selector", false]], "data_juicer.ops.selector.random_selector": [[12, "module-data_juicer.ops.selector.random_selector", false]], "data_juicer.ops.selector.range_specified_field_selector": [[12, "module-data_juicer.ops.selector.range_specified_field_selector", false]], "data_juicer.ops.selector.topk_specified_field_selector": [[12, "module-data_juicer.ops.selector.topk_specified_field_selector", false]], "data_juicer.tools": [[13, "module-data_juicer.tools", false]], "data_juicer.utils": [[14, "module-data_juicer.utils", false]], "data_juicer.utils.asset_utils": [[14, "module-data_juicer.utils.asset_utils", false]], "data_juicer.utils.auto_install_mapping": [[14, "module-data_juicer.utils.auto_install_mapping", false]], "data_juicer.utils.auto_install_utils": [[14, "module-data_juicer.utils.auto_install_utils", false]], "data_juicer.utils.availability_utils": [[14, "module-data_juicer.utils.availability_utils", false]], "data_juicer.utils.cache_utils": [[14, "module-data_juicer.utils.cache_utils", false]], "data_juicer.utils.ckpt_utils": [[14, "module-data_juicer.utils.ckpt_utils", false]], "data_juicer.utils.common_utils": [[14, "module-data_juicer.utils.common_utils", false]], "data_juicer.utils.compress": [[14, "module-data_juicer.utils.compress", false]], "data_juicer.utils.constant": [[14, "module-data_juicer.utils.constant", false]], "data_juicer.utils.file_utils": [[14, "module-data_juicer.utils.file_utils", false]], "data_juicer.utils.fingerprint_utils": [[14, "module-data_juicer.utils.fingerprint_utils", false]], "data_juicer.utils.lazy_loader": [[14, "module-data_juicer.utils.lazy_loader", false]], "data_juicer.utils.logger_utils": [[14, "module-data_juicer.utils.logger_utils", false]], "data_juicer.utils.mm_utils": [[14, "module-data_juicer.utils.mm_utils", false]], "data_juicer.utils.model_utils": [[14, "module-data_juicer.utils.model_utils", false]], "data_juicer.utils.process_utils": [[14, "module-data_juicer.utils.process_utils", false]], "data_juicer.utils.registry": [[14, "module-data_juicer.utils.registry", false]], "data_juicer.utils.resource_utils": [[14, "module-data_juicer.utils.resource_utils", false]], "data_juicer.utils.unittest_utils": [[14, "module-data_juicer.utils.unittest_utils", false]], "datajuicertestcasebase (class in data_juicer.utils.unittest_utils)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase", false]], "dataset_cache_control() (in module data_juicer.utils.cache_utils)": [[14, "data_juicer.utils.cache_utils.dataset_cache_control", false]], "datasetcachecontrol (class in data_juicer.utils.cache_utils)": [[14, "data_juicer.utils.cache_utils.DatasetCacheControl", false]], "decompress() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.decompress", false]], "decompress() (data_juicer.utils.compress.compressmanager method)": [[14, "data_juicer.utils.compress.CompressManager.decompress", false]], "decompress() (in module data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.decompress", false]], "deduplicator (class in data_juicer.ops)": [[5, "data_juicer.ops.Deduplicator", false]], "deduplicator (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Deduplicator", false]], "default_attr_pattern_template (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE", false]], "default_attr_pattern_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_ATTR_PATTERN_TEMPLATE", false]], "default_completion_delimiter (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_completion_delimiter (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_COMPLETION_DELIMITER", false]], "default_continue_prompt (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT", false]], "default_continue_prompt (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_CONTINUE_PROMPT", false]], "default_demon_pattern (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN", false]], "default_demon_pattern (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_DEMON_PATTERN", false]], "default_entity_pattern (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN", false]], "default_entity_pattern (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_PATTERN", false]], "default_entity_types (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES", false]], "default_entity_types (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_ENTITY_TYPES", false]], "default_example_prompt (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT", false]], "default_example_prompt (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_EXAMPLE_PROMPT", false]], "default_example_template (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE", false]], "default_example_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_EXAMPLE_TEMPLATE", false]], "default_if_loop_prompt (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT", false]], "default_if_loop_prompt (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_IF_LOOP_PROMPT", false]], "default_input_template (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_input_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_INPUT_TEMPLATE", false]], "default_output_pattern (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_OUTPUT_PATTERN", false]], "default_output_pattern_template (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_output_pattern_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_OUTPUT_PATTERN_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_prompt_template (data_juicer.ops.mapper.extractkeywordmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.DEFAULT_PROMPT_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_qa_pair_template (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_QA_PAIR_TEMPLATE", false]], "default_record_delimiter (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER", false]], "default_record_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RECORD_DELIMITER", false]], "default_reference_template (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE", false]], "default_reference_template (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_REFERENCE_TEMPLATE", false]], "default_relation_pattern (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN", false]], "default_relation_pattern (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_RELATION_PATTERN", false]], "default_sub_doc_template (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE", false]], "default_sub_doc_template (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SUB_DOC_TEMPLATE", false]], "default_system_prompt (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.aggregator.nestedaggregator attribute)": [[6, "data_juicer.ops.aggregator.NestedAggregator.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrate_query_mapper.calibratequerymapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrate_response_mapper.calibrateresponsemapper attribute)": [[11, "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrateqamapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibratequerymapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.calibrateresponsemapper attribute)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extracteventmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extractnicknamemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.extractsupporttextmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.generateqafromexamplesmapper attribute)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimize_query_mapper.optimizequerymapper attribute)": [[11, "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimize_response_mapper.optimizeresponsemapper attribute)": [[11, "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizeqamapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizequerymapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.optimizeresponsemapper attribute)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt (data_juicer.ops.mapper.pairpreferencemapper attribute)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.DEFAULT_SYSTEM_PROMPT", false]], "default_system_prompt_template (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.extractentityattributemapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_prompt_template (data_juicer.ops.mapper.relationidentitymapper attribute)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.DEFAULT_SYSTEM_PROMPT_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.entityattributeaggregator attribute)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_system_template (data_juicer.ops.aggregator.mostrelavantentitiesaggregator attribute)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.DEFAULT_SYSTEM_TEMPLATE", false]], "default_tuple_delimiter (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER", false]], "default_tuple_delimiter (data_juicer.ops.mapper.extractentityrelationmapper attribute)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.DEFAULT_TUPLE_DELIMITER", false]], "detect_faces() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.detect_faces", false]], "dict_to_hash() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.dict_to_hash", false]], "dispatch (data_juicer.utils.fingerprint_utils.hasher attribute)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.dispatch", false]], "display_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.display_config", false]], "diversityanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.DiversityAnalysis", false]], "diversityanalysis (class in data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.DiversityAnalysis", false]], "dj_configs (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.dj_configs", false]], "djdataset (class in data_juicer.core.data)": [[3, "data_juicer.core.data.DJDataset", false]], "documentdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator", false]], "documentdeduplicator (class in data_juicer.ops.deduplicator.document_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator", false]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator", false]], "documentminhashdeduplicator (class in data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator", false]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator", false]], "documentsimhashdeduplicator (class in data_juicer.ops.deduplicator.document_simhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator", false]], "draw_box() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_box", false]], "draw_box() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_box", false]], "draw_heatmap() (in module data_juicer.analysis.draw)": [[1, "data_juicer.analysis.draw.draw_heatmap", false]], "draw_hist() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_hist", false]], "draw_hist() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_hist", false]], "draw_resource_util_graph() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.draw_resource_util_graph", false]], "draw_resource_util_graph() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.draw_resource_util_graph", false]], "draw_wordcloud() (data_juicer.analysis.column_wise_analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis.draw_wordcloud", false]], "draw_wordcloud() (data_juicer.analysis.columnwiseanalysis method)": [[1, "data_juicer.analysis.ColumnWiseAnalysis.draw_wordcloud", false]], "dynamic_fields (data_juicer.core.monitor attribute)": [[3, "data_juicer.core.Monitor.DYNAMIC_FIELDS", false]], "dynamic_fields (data_juicer.core.monitor.monitor attribute)": [[3, "data_juicer.core.monitor.Monitor.DYNAMIC_FIELDS", false]], "empty_hash_value (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE", false]], "empty_hash_value (data_juicer.ops.deduplicator.raybasicdeduplicator attribute)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.EMPTY_HASH_VALUE", false]], "empty_history() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.empty_history", false]], "emptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.EmptyFormatter", false]], "emptyformatter (class in data_juicer.format.empty_formatter)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter", false]], "entity (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.entity", false]], "entity_description (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.entity_description", false]], "entity_name (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.entity_name", false]], "entity_type (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.entity_type", false]], "entityattributeaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator", false]], "entityattributeaggregator (class in data_juicer.ops.aggregator.entity_attribute_aggregator)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator", false]], "entropymeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.EntropyMeasure", false]], "eoc (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.eoc", false]], "event_description (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.event_description", false]], "execute_and_probe() (data_juicer.core.adapter static method)": [[3, "data_juicer.core.Adapter.execute_and_probe", false]], "execute_and_probe() (data_juicer.core.adapter.adapter static method)": [[3, "data_juicer.core.adapter.Adapter.execute_and_probe", false]], "executor (class in data_juicer.core)": [[3, "data_juicer.core.Executor", false]], "executor (class in data_juicer.core.executor)": [[3, "data_juicer.core.executor.Executor", false]], "expandmacromapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper", false]], "expandmacromapper (class in data_juicer.ops.mapper.expand_macro_mapper)": [[11, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper", false]], "export() (data_juicer.core.exporter method)": [[3, "data_juicer.core.Exporter.export", false]], "export() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.export", false]], "export_compute_stats() (data_juicer.core.exporter method)": [[3, "data_juicer.core.Exporter.export_compute_stats", false]], "export_compute_stats() (data_juicer.core.exporter.exporter method)": [[3, "data_juicer.core.exporter.Exporter.export_compute_stats", false]], "export_config() (in module data_juicer.config)": [[2, "data_juicer.config.export_config", false]], "export_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.export_config", false]], "exporter (class in data_juicer.core)": [[3, "data_juicer.core.Exporter", false]], "exporter (class in data_juicer.core.exporter)": [[3, "data_juicer.core.exporter.Exporter", false]], "extra_configs (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.extra_configs", false]], "extract() (data_juicer.utils.compress.extractor class method)": [[14, "data_juicer.utils.compress.Extractor.extract", false]], "extract_audio_from_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_audio_from_video", false]], "extract_key_frames() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_key_frames", false]], "extract_key_frames_by_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_key_frames_by_seconds", false]], "extract_txt_from_docx() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_docx", false]], "extract_txt_from_pdf() (in module data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.extract_txt_from_pdf", false]], "extract_video_frames_uniformly() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_video_frames_uniformly", false]], "extract_video_frames_uniformly_by_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.extract_video_frames_uniformly_by_seconds", false]], "extractentityattributemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper", false]], "extractentityattributemapper (class in data_juicer.ops.mapper.extract_entity_attribute_mapper)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper", false]], "extractentityrelationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper", false]], "extractentityrelationmapper (class in data_juicer.ops.mapper.extract_entity_relation_mapper)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper", false]], "extracteventmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractEventMapper", false]], "extracteventmapper (class in data_juicer.ops.mapper.extract_event_mapper)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper", false]], "extractkeywordmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper", false]], "extractkeywordmapper (class in data_juicer.ops.mapper.extract_keyword_mapper)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper", false]], "extractnicknamemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper", false]], "extractnicknamemapper (class in data_juicer.ops.mapper.extract_nickname_mapper)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper", false]], "extractor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.Extractor", false]], "extractsupporttextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper", false]], "extractsupporttextmapper (class in data_juicer.ops.mapper.extract_support_text_mapper)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper", false]], "face_counts (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.face_counts", false]], "face_detections (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.face_detections", false]], "face_ratios (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.face_ratios", false]], "fields (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.Fields", false]], "filelock (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.FileLock", false]], "filter (class in data_juicer.ops)": [[5, "data_juicer.ops.Filter", false]], "filter (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Filter", false]], "filter() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.filter", false]], "filter() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.filter", false]], "filter_batch() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.filter_batch", false]], "find() (data_juicer.ops.common.helper_func.unionfind method)": [[7, "data_juicer.ops.common.helper_func.UnionFind.find", false]], "find_files_with_suffix() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.find_files_with_suffix", false]], "find_noun_phrases() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.find_noun_phrases", false]], "find_root_verb_and_its_dobj() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj", false]], "find_root_verb_and_its_dobj_in_string() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.find_root_verb_and_its_dobj_in_string", false]], "fixunicodemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper", false]], "fixunicodemapper (class in data_juicer.ops.mapper.fix_unicode_mapper)": [[11, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper", false]], "flagged_words_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.flagged_words_ratio", false]], "flaggedwordfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.FlaggedWordFilter", false]], "flaggedwordfilter (class in data_juicer.ops.filter.flagged_words_filter)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter", false]], "flush() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.flush", false]], "follow_read() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.follow_read", false]], "format_cache_file_name() (data_juicer.utils.compress.cachecompressmanager method)": [[14, "data_juicer.utils.compress.CacheCompressManager.format_cache_file_name", false]], "free_models() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.free_models", false]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector", false]], "frequencyspecifiedfieldselector (class in data_juicer.ops.selector.frequency_specified_field_selector)": [[12, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector", false]], "from_dict() (data_juicer.core.data.nesteddataset class method)": [[3, "data_juicer.core.data.NestedDataset.from_dict", false]], "from_dict() (data_juicer.core.nesteddataset class method)": [[3, "data_juicer.core.NestedDataset.from_dict", false]], "fuse_filter_group() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_filter_group", false]], "fuse_operators() (in module data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.fuse_operators", false]], "fusedfilter (class in data_juicer.ops.op_fusion)": [[5, "data_juicer.ops.op_fusion.FusedFilter", false]], "generate_dataset() (data_juicer.utils.unittest_utils.datajuicertestcasebase method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.generate_dataset", false]], "generate_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[14, "data_juicer.utils.fingerprint_utils.generate_fingerprint", false]], "generateqafromexamplesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper", false]], "generateqafromexamplesmapper (class in data_juicer.ops.mapper.generate_qa_from_examples_mapper)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper", false]], "generateqafromtextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper", false]], "generateqafromtextmapper (class in data_juicer.ops.mapper.generate_qa_from_text_mapper)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper", false]], "get() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.get", false]], "get_abs_path() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.get_abs_path", false]], "get_access_log() (data_juicer.utils.constant.statskeysmeta method)": [[14, "data_juicer.utils.constant.StatsKeysMeta.get_access_log", false]], "get_backup_model_link() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.get_backup_model_link", false]], "get_caller_name() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.get_caller_name", false]], "get_cpu_count() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.get_cpu_count", false]], "get_cpu_utilization() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.get_cpu_utilization", false]], "get_decoded_frames_from_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_decoded_frames_from_video", false]], "get_diversity() (in module data_juicer.analysis.diversity_analysis)": [[1, "data_juicer.analysis.diversity_analysis.get_diversity", false]], "get_file_size() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_file_size", false]], "get_hash_method() (in module data_juicer.ops.deduplicator.image_deduplicator)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.get_hash_method", false]], "get_hash_method() (in module data_juicer.ops.deduplicator.ray_image_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.get_hash_method", false]], "get_init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.get_init_configs", false]], "get_init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.get_init_configs", false]], "get_key_frame_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_key_frame_seconds", false]], "get_left_process_list() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.get_left_process_list", false]], "get_log_file_path() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.get_log_file_path", false]], "get_min_cuda_memory() (in module data_juicer.utils.process_utils)": [[14, "data_juicer.utils.process_utils.get_min_cuda_memory", false]], "get_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.get_model", false]], "get_num_gpus() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.get_num_gpus", false]], "get_reader() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.get_reader", false]], "get_reader() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.get_reader", false]], "get_row_col() (in module data_juicer.analysis.column_wise_analysis)": [[1, "data_juicer.analysis.column_wise_analysis.get_row_col", false]], "get_sentences_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_sentences_from_document", false]], "get_sentences_from_document() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.get_sentences_from_document", false]], "get_special_tokens() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_special_tokens", false]], "get_split_key_frame() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.get_split_key_frame", false]], "get_split_key_frame() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.get_split_key_frame", false]], "get_text_chunks() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.get_text_chunks", false]], "get_text_chunks() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.get_text_chunks", false]], "get_video_duration() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.get_video_duration", false]], "get_words_from_document() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.get_words_from_document", false]], "get_words_from_document() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.get_words_from_document", false]], "getvalue() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.getvalue", false]], "gib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.GiB", false]], "gib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.GiB", false]], "grouper (class in data_juicer.ops)": [[5, "data_juicer.ops.Grouper", false]], "grouper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Grouper", false]], "gzipcompressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.GzipCompressor", false]], "hash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.hash", false]], "hash() (data_juicer.utils.fingerprint_utils.hasher class method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hash", false]], "hash_bytes() (data_juicer.utils.fingerprint_utils.hasher class method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hash_bytes", false]], "hash_default() (data_juicer.utils.fingerprint_utils.hasher class method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hash_default", false]], "hasher (class in data_juicer.utils.fingerprint_utils)": [[14, "data_juicer.utils.fingerprint_utils.Hasher", false]], "hashkeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.HashKeys", false]], "hexdigest() (data_juicer.utils.fingerprint_utils.hasher method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.hexdigest", false]], "hiddenprints (class in data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.HiddenPrints", false]], "hook (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.hook", false]], "image (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.image", false]], "image_aesthetics_scores (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_aesthetics_scores", false]], "image_byte_to_base64() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.image_byte_to_base64", false]], "image_height (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_height", false]], "image_nsfw_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_nsfw_score", false]], "image_pair_similarity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_pair_similarity", false]], "image_path_to_base64() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.image_path_to_base64", false]], "image_sizes (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_sizes", false]], "image_tags (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.image_tags", false]], "image_text_matching_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_text_matching_score", false]], "image_text_similarity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_text_similarity", false]], "image_watermark_prob (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_watermark_prob", false]], "image_width (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.image_width", false]], "imageaestheticsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter", false]], "imageaestheticsfilter (class in data_juicer.ops.filter.image_aesthetics_filter)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter", false]], "imageaspectratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter", false]], "imageaspectratiofilter (class in data_juicer.ops.filter.image_aspect_ratio_filter)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter", false]], "imageblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageBlurMapper", false]], "imageblurmapper (class in data_juicer.ops.mapper.image_blur_mapper)": [[11, "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper", false]], "imagecaptioningfromgpt4vmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper", false]], "imagecaptioningfromgpt4vmapper (class in data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper", false]], "imagecaptioningmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper", false]], "imagecaptioningmapper (class in data_juicer.ops.mapper.image_captioning_mapper)": [[11, "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper", false]], "imagededuplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator", false]], "imagededuplicator (class in data_juicer.ops.deduplicator.image_deduplicator)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator", false]], "imagediffusionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper", false]], "imagediffusionmapper (class in data_juicer.ops.mapper.image_diffusion_mapper)": [[11, "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper", false]], "imagefaceblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper", false]], "imagefaceblurmapper (class in data_juicer.ops.mapper.image_face_blur_mapper)": [[11, "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper", false]], "imagefacecountfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter", false]], "imagefacecountfilter (class in data_juicer.ops.filter.image_face_count_filter)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter", false]], "imagefaceratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter", false]], "imagefaceratiofilter (class in data_juicer.ops.filter.image_face_ratio_filter)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter", false]], "imagehash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.imagehash", false]], "imagensfwfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageNSFWFilter", false]], "imagensfwfilter (class in data_juicer.ops.filter.image_nsfw_filter)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter", false]], "imagepairsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter", false]], "imagepairsimilarityfilter (class in data_juicer.ops.filter.image_pair_similarity_filter)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter", false]], "imageshapefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageShapeFilter", false]], "imageshapefilter (class in data_juicer.ops.filter.image_shape_filter)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter", false]], "imagesizefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageSizeFilter", false]], "imagesizefilter (class in data_juicer.ops.filter.image_size_filter)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter", false]], "imagetaggingmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper", false]], "imagetaggingmapper (class in data_juicer.ops.mapper.image_tagging_mapper)": [[11, "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper", false]], "imagetextmatchingfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter", false]], "imagetextmatchingfilter (class in data_juicer.ops.filter.image_text_matching_filter)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter", false]], "imagetextsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter", false]], "imagetextsimilarityfilter (class in data_juicer.ops.filter.image_text_similarity_filter)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter", false]], "imagewatermarkfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter", false]], "imagewatermarkfilter (class in data_juicer.ops.filter.image_watermark_filter)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter", false]], "init_configs() (in module data_juicer.config)": [[2, "data_juicer.config.init_configs", false]], "init_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_configs", false]], "init_setup_from_cfg() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.init_setup_from_cfg", false]], "insert_texts_after_placeholders() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.insert_texts_after_placeholders", false]], "insight_mining() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.insight_mining", false]], "insight_mining() (data_juicer.core.adapter.adapter method)": [[3, "data_juicer.core.adapter.Adapter.insight_mining", false]], "install() (data_juicer.utils.auto_install_utils.autoinstaller method)": [[14, "data_juicer.utils.auto_install_utils.AutoInstaller.install", false]], "intervars (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.InterVars", false]], "iou() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.iou", false]], "is_absolute_path() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.is_absolute_path", false]], "is_batched_op() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.is_batched_op", false]], "is_cuda_available() (in module data_juicer)": [[0, "data_juicer.is_cuda_available", false]], "is_duplicate (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.is_duplicate", false]], "is_float() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.is_float", false]], "is_number() (in module data_juicer.ops.filter.specified_numeric_field_filter)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.is_number", false]], "is_string_list() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.is_string_list", false]], "jobrequiredkeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.JobRequiredKeys", false]], "jsdivmeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.JSDivMeasure", false]], "jsonformatter (class in data_juicer.format)": [[4, "data_juicer.format.JsonFormatter", false]], "jsonformatter (class in data_juicer.format.json_formatter)": [[4, "data_juicer.format.json_formatter.JsonFormatter", false]], "jsonstreamdatasource (class in data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.JSONStreamDatasource", false]], "keyvaluegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.KeyValueGrouper", false]], "keyvaluegrouper (class in data_juicer.ops.grouper.key_value_grouper)": [[10, "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper", false]], "keyword (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.keyword", false]], "kib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.KiB", false]], "kib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.KiB", false]], "kldivmeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.KLDivMeasure", false]], "lang (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.lang", false]], "lang_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.lang_score", false]], "languageidscorefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter", false]], "languageidscorefilter (class in data_juicer.ops.filter.language_id_score_filter)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter", false]], "lazyloader (class in data_juicer.utils.lazy_loader)": [[14, "data_juicer.utils.lazy_loader.LazyLoader", false]], "light_rag_extraction() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.light_rag_extraction", false]], "light_rag_extraction() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.light_rag_extraction", false]], "lines (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.lines", false]], "list() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.list", false]], "load_audio() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_audio", false]], "load_audios() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_audios", false]], "load_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.load_ckpt", false]], "load_data_with_context() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_data_with_context", false]], "load_dataset() (data_juicer.format.empty_formatter.emptyformatter method)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.empty_formatter.rayemptyformatter method)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.emptyformatter method)": [[4, "data_juicer.format.EmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.formatter.baseformatter method)": [[4, "data_juicer.format.formatter.BaseFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.formatter.localformatter method)": [[4, "data_juicer.format.formatter.LocalFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.formatter.remoteformatter method)": [[4, "data_juicer.format.formatter.RemoteFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.localformatter method)": [[4, "data_juicer.format.LocalFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.mixture_formatter.mixtureformatter method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.mixtureformatter method)": [[4, "data_juicer.format.MixtureFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.rayemptyformatter method)": [[4, "data_juicer.format.RayEmptyFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.remoteformatter method)": [[4, "data_juicer.format.RemoteFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.text_formatter.textformatter method)": [[4, "data_juicer.format.text_formatter.TextFormatter.load_dataset", false]], "load_dataset() (data_juicer.format.textformatter method)": [[4, "data_juicer.format.TextFormatter.load_dataset", false]], "load_formatter() (in module data_juicer.format)": [[4, "data_juicer.format.load_formatter", false]], "load_formatter() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.load_formatter", false]], "load_formatter() (in module data_juicer.format.load)": [[4, "data_juicer.format.load.load_formatter", false]], "load_from_disk() (data_juicer.core.data.nesteddataset static method)": [[3, "data_juicer.core.data.NestedDataset.load_from_disk", false]], "load_from_disk() (data_juicer.core.nesteddataset static method)": [[3, "data_juicer.core.NestedDataset.load_from_disk", false]], "load_image() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_image", false]], "load_image_byte() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_image_byte", false]], "load_images() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_images", false]], "load_images_byte() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_images_byte", false]], "load_ops() (in module data_juicer.ops)": [[5, "data_juicer.ops.load_ops", false]], "load_ops() (in module data_juicer.ops.load)": [[5, "data_juicer.ops.load.load_ops", false]], "load_ops_with_stats_meta() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.load_ops_with_stats_meta", false]], "load_video() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_video", false]], "load_videos() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.load_videos", false]], "load_words_asset() (in module data_juicer.utils.asset_utils)": [[14, "data_juicer.utils.asset_utils.load_words_asset", false]], "loaded_audios (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.loaded_audios", false]], "loaded_images (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.loaded_images", false]], "loaded_videos (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.loaded_videos", false]], "localformatter (class in data_juicer.format)": [[4, "data_juicer.format.LocalFormatter", false]], "localformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.LocalFormatter", false]], "lz4compressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.Lz4Compressor", false]], "main_entities (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.main_entities", false]], "map() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.map", false]], "map() (data_juicer.core.data.nesteddatasetdict method)": [[3, "data_juicer.core.data.NestedDatasetDict.map", false]], "map() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.map", false]], "mapper (class in data_juicer.ops)": [[5, "data_juicer.ops.Mapper", false]], "mapper (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Mapper", false]], "max_batch_size (data_juicer.core.adapter attribute)": [[3, "data_juicer.core.Adapter.MAX_BATCH_SIZE", false]], "max_batch_size (data_juicer.core.adapter.adapter attribute)": [[3, "data_juicer.core.adapter.Adapter.MAX_BATCH_SIZE", false]], "max_line_length (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.max_line_length", false]], "maximumlinelengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter", false]], "maximumlinelengthfilter (class in data_juicer.ops.filter.maximum_line_length_filter)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter", false]], "measure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.Measure", false]], "measure() (data_juicer.analysis.measure.crossentropymeasure method)": [[1, "data_juicer.analysis.measure.CrossEntropyMeasure.measure", false]], "measure() (data_juicer.analysis.measure.entropymeasure method)": [[1, "data_juicer.analysis.measure.EntropyMeasure.measure", false]], "measure() (data_juicer.analysis.measure.jsdivmeasure method)": [[1, "data_juicer.analysis.measure.JSDivMeasure.measure", false]], "measure() (data_juicer.analysis.measure.kldivmeasure method)": [[1, "data_juicer.analysis.measure.KLDivMeasure.measure", false]], "measure() (data_juicer.analysis.measure.measure method)": [[1, "data_juicer.analysis.measure.Measure.measure", false]], "measure() (data_juicer.analysis.measure.relatedttestmeasure method)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.measure", false]], "merge_config() (in module data_juicer.config)": [[2, "data_juicer.config.merge_config", false]], "merge_config() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.merge_config", false]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.merge_on_whitespace_tab_newline", false]], "merge_on_whitespace_tab_newline() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.merge_on_whitespace_tab_newline", false]], "meta (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.meta", false]], "meta_name (data_juicer.utils.constant.jobrequiredkeys attribute)": [[14, "data_juicer.utils.constant.JobRequiredKeys.meta_name", false]], "mib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.MiB", false]], "mib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.MiB", false]], "minhash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.minhash", false]], "mixtureformatter (class in data_juicer.format)": [[4, "data_juicer.format.MixtureFormatter", false]], "mixtureformatter (class in data_juicer.format.mixture_formatter)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter", false]], "module": [[0, "module-data_juicer", false], [1, "module-data_juicer.analysis", false], [1, "module-data_juicer.analysis.collector", false], [1, "module-data_juicer.analysis.column_wise_analysis", false], [1, "module-data_juicer.analysis.diversity_analysis", false], [1, "module-data_juicer.analysis.draw", false], [1, "module-data_juicer.analysis.measure", false], [1, "module-data_juicer.analysis.overall_analysis", false], [2, "module-data_juicer.config", false], [2, "module-data_juicer.config.config", false], [3, "module-data_juicer.core", false], [3, "module-data_juicer.core.adapter", false], [3, "module-data_juicer.core.analyzer", false], [3, "module-data_juicer.core.data", false], [3, "module-data_juicer.core.executor", false], [3, "module-data_juicer.core.exporter", false], [3, "module-data_juicer.core.monitor", false], [3, "module-data_juicer.core.ray_data", false], [3, "module-data_juicer.core.ray_executor", false], [3, "module-data_juicer.core.tracer", false], [4, "module-data_juicer.format", false], [4, "module-data_juicer.format.csv_formatter", false], [4, "module-data_juicer.format.empty_formatter", false], [4, "module-data_juicer.format.formatter", false], [4, "module-data_juicer.format.json_formatter", false], [4, "module-data_juicer.format.load", false], [4, "module-data_juicer.format.mixture_formatter", false], [4, "module-data_juicer.format.parquet_formatter", false], [4, "module-data_juicer.format.text_formatter", false], [4, "module-data_juicer.format.tsv_formatter", false], [5, "module-data_juicer.ops", false], [5, "module-data_juicer.ops.base_op", false], [5, "module-data_juicer.ops.load", false], [5, "module-data_juicer.ops.op_fusion", false], [6, "module-data_juicer.ops.aggregator", false], [6, "module-data_juicer.ops.aggregator.entity_attribute_aggregator", false], [6, "module-data_juicer.ops.aggregator.most_relavant_entities_aggregator", false], [6, "module-data_juicer.ops.aggregator.nested_aggregator", false], [7, "module-data_juicer.ops.common", false], [7, "module-data_juicer.ops.common.helper_func", false], [7, "module-data_juicer.ops.common.special_characters", false], [8, "module-data_juicer.ops.deduplicator", false], [8, "module-data_juicer.ops.deduplicator.document_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.document_minhash_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.document_simhash_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.image_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_basic_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_document_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_image_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.ray_video_deduplicator", false], [8, "module-data_juicer.ops.deduplicator.video_deduplicator", false], [9, "module-data_juicer.ops.filter", false], [9, "module-data_juicer.ops.filter.alphanumeric_filter", false], [9, "module-data_juicer.ops.filter.audio_duration_filter", false], [9, "module-data_juicer.ops.filter.audio_nmf_snr_filter", false], [9, "module-data_juicer.ops.filter.audio_size_filter", false], [9, "module-data_juicer.ops.filter.average_line_length_filter", false], [9, "module-data_juicer.ops.filter.character_repetition_filter", false], [9, "module-data_juicer.ops.filter.flagged_words_filter", false], [9, "module-data_juicer.ops.filter.image_aesthetics_filter", false], [9, "module-data_juicer.ops.filter.image_aspect_ratio_filter", false], [9, "module-data_juicer.ops.filter.image_face_count_filter", false], [9, "module-data_juicer.ops.filter.image_face_ratio_filter", false], [9, "module-data_juicer.ops.filter.image_nsfw_filter", false], [9, "module-data_juicer.ops.filter.image_pair_similarity_filter", false], [9, "module-data_juicer.ops.filter.image_shape_filter", false], [9, "module-data_juicer.ops.filter.image_size_filter", false], [9, "module-data_juicer.ops.filter.image_text_matching_filter", false], [9, "module-data_juicer.ops.filter.image_text_similarity_filter", false], [9, "module-data_juicer.ops.filter.image_watermark_filter", false], [9, "module-data_juicer.ops.filter.language_id_score_filter", false], [9, "module-data_juicer.ops.filter.maximum_line_length_filter", false], [9, "module-data_juicer.ops.filter.perplexity_filter", false], [9, "module-data_juicer.ops.filter.phrase_grounding_recall_filter", false], [9, "module-data_juicer.ops.filter.special_characters_filter", false], [9, "module-data_juicer.ops.filter.specified_field_filter", false], [9, "module-data_juicer.ops.filter.specified_numeric_field_filter", false], [9, "module-data_juicer.ops.filter.stopwords_filter", false], [9, "module-data_juicer.ops.filter.suffix_filter", false], [9, "module-data_juicer.ops.filter.text_action_filter", false], [9, "module-data_juicer.ops.filter.text_entity_dependency_filter", false], [9, "module-data_juicer.ops.filter.text_length_filter", false], [9, "module-data_juicer.ops.filter.token_num_filter", false], [9, "module-data_juicer.ops.filter.video_aesthetics_filter", false], [9, "module-data_juicer.ops.filter.video_aspect_ratio_filter", false], [9, "module-data_juicer.ops.filter.video_duration_filter", false], [9, "module-data_juicer.ops.filter.video_frames_text_similarity_filter", false], [9, "module-data_juicer.ops.filter.video_motion_score_filter", false], [9, "module-data_juicer.ops.filter.video_motion_score_raft_filter", false], [9, "module-data_juicer.ops.filter.video_nsfw_filter", false], [9, "module-data_juicer.ops.filter.video_ocr_area_ratio_filter", false], [9, "module-data_juicer.ops.filter.video_resolution_filter", false], [9, "module-data_juicer.ops.filter.video_tagging_from_frames_filter", false], [9, "module-data_juicer.ops.filter.video_watermark_filter", false], [9, "module-data_juicer.ops.filter.word_repetition_filter", false], [9, "module-data_juicer.ops.filter.words_num_filter", false], [10, "module-data_juicer.ops.grouper", false], [10, "module-data_juicer.ops.grouper.key_value_grouper", false], [10, "module-data_juicer.ops.grouper.naive_grouper", false], [11, "module-data_juicer.ops.mapper", false], [11, "module-data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper", false], [11, "module-data_juicer.ops.mapper.calibrate_qa_mapper", false], [11, "module-data_juicer.ops.mapper.calibrate_query_mapper", false], [11, "module-data_juicer.ops.mapper.calibrate_response_mapper", false], [11, "module-data_juicer.ops.mapper.chinese_convert_mapper", false], [11, "module-data_juicer.ops.mapper.clean_copyright_mapper", false], [11, "module-data_juicer.ops.mapper.clean_email_mapper", false], [11, "module-data_juicer.ops.mapper.clean_html_mapper", false], [11, "module-data_juicer.ops.mapper.clean_ip_mapper", false], [11, "module-data_juicer.ops.mapper.clean_links_mapper", false], [11, "module-data_juicer.ops.mapper.expand_macro_mapper", false], [11, "module-data_juicer.ops.mapper.extract_entity_attribute_mapper", false], [11, "module-data_juicer.ops.mapper.extract_entity_relation_mapper", false], [11, "module-data_juicer.ops.mapper.extract_event_mapper", false], [11, "module-data_juicer.ops.mapper.extract_keyword_mapper", false], [11, "module-data_juicer.ops.mapper.extract_nickname_mapper", false], [11, "module-data_juicer.ops.mapper.extract_support_text_mapper", false], [11, "module-data_juicer.ops.mapper.fix_unicode_mapper", false], [11, "module-data_juicer.ops.mapper.generate_qa_from_examples_mapper", false], [11, "module-data_juicer.ops.mapper.generate_qa_from_text_mapper", false], [11, "module-data_juicer.ops.mapper.image_blur_mapper", false], [11, "module-data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper", false], [11, "module-data_juicer.ops.mapper.image_captioning_mapper", false], [11, "module-data_juicer.ops.mapper.image_diffusion_mapper", false], [11, "module-data_juicer.ops.mapper.image_face_blur_mapper", false], [11, "module-data_juicer.ops.mapper.image_tagging_mapper", false], [11, "module-data_juicer.ops.mapper.nlpaug_en_mapper", false], [11, "module-data_juicer.ops.mapper.nlpcda_zh_mapper", false], [11, "module-data_juicer.ops.mapper.optimize_qa_mapper", false], [11, "module-data_juicer.ops.mapper.optimize_query_mapper", false], [11, "module-data_juicer.ops.mapper.optimize_response_mapper", false], [11, "module-data_juicer.ops.mapper.pair_preference_mapper", false], [11, "module-data_juicer.ops.mapper.punctuation_normalization_mapper", false], [11, "module-data_juicer.ops.mapper.python_file_mapper", false], [11, "module-data_juicer.ops.mapper.python_lambda_mapper", false], [11, "module-data_juicer.ops.mapper.relation_identity_mapper", false], [11, "module-data_juicer.ops.mapper.remove_bibliography_mapper", false], [11, "module-data_juicer.ops.mapper.remove_comments_mapper", false], [11, "module-data_juicer.ops.mapper.remove_header_mapper", false], [11, "module-data_juicer.ops.mapper.remove_long_words_mapper", false], [11, "module-data_juicer.ops.mapper.remove_non_chinese_character_mapper", false], [11, "module-data_juicer.ops.mapper.remove_repeat_sentences_mapper", false], [11, "module-data_juicer.ops.mapper.remove_specific_chars_mapper", false], [11, "module-data_juicer.ops.mapper.remove_table_text_mapper", false], [11, "module-data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper", false], [11, "module-data_juicer.ops.mapper.replace_content_mapper", false], [11, "module-data_juicer.ops.mapper.sentence_split_mapper", false], [11, "module-data_juicer.ops.mapper.text_chunk_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_audio_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_frames_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_summarizer_mapper", false], [11, "module-data_juicer.ops.mapper.video_captioning_from_video_mapper", false], [11, "module-data_juicer.ops.mapper.video_extract_frames_mapper", false], [11, "module-data_juicer.ops.mapper.video_face_blur_mapper", false], [11, "module-data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper", false], [11, "module-data_juicer.ops.mapper.video_remove_watermark_mapper", false], [11, "module-data_juicer.ops.mapper.video_resize_aspect_ratio_mapper", false], [11, "module-data_juicer.ops.mapper.video_resize_resolution_mapper", false], [11, "module-data_juicer.ops.mapper.video_split_by_duration_mapper", false], [11, "module-data_juicer.ops.mapper.video_split_by_key_frame_mapper", false], [11, "module-data_juicer.ops.mapper.video_split_by_scene_mapper", false], [11, "module-data_juicer.ops.mapper.video_tagging_from_audio_mapper", false], [11, "module-data_juicer.ops.mapper.video_tagging_from_frames_mapper", false], [11, "module-data_juicer.ops.mapper.whitespace_normalization_mapper", false], [12, "module-data_juicer.ops.selector", false], [12, "module-data_juicer.ops.selector.frequency_specified_field_selector", false], [12, "module-data_juicer.ops.selector.random_selector", false], [12, "module-data_juicer.ops.selector.range_specified_field_selector", false], [12, "module-data_juicer.ops.selector.topk_specified_field_selector", false], [13, "module-data_juicer.tools", false], [14, "module-data_juicer.utils", false], [14, "module-data_juicer.utils.asset_utils", false], [14, "module-data_juicer.utils.auto_install_mapping", false], [14, "module-data_juicer.utils.auto_install_utils", false], [14, "module-data_juicer.utils.availability_utils", false], [14, "module-data_juicer.utils.cache_utils", false], [14, "module-data_juicer.utils.ckpt_utils", false], [14, "module-data_juicer.utils.common_utils", false], [14, "module-data_juicer.utils.compress", false], [14, "module-data_juicer.utils.constant", false], [14, "module-data_juicer.utils.file_utils", false], [14, "module-data_juicer.utils.fingerprint_utils", false], [14, "module-data_juicer.utils.lazy_loader", false], [14, "module-data_juicer.utils.logger_utils", false], [14, "module-data_juicer.utils.mm_utils", false], [14, "module-data_juicer.utils.model_utils", false], [14, "module-data_juicer.utils.process_utils", false], [14, "module-data_juicer.utils.registry", false], [14, "module-data_juicer.utils.resource_utils", false], [14, "module-data_juicer.utils.unittest_utils", false]], "modules (data_juicer.utils.registry.registry property)": [[14, "data_juicer.utils.registry.Registry.modules", false]], "monitor (class in data_juicer.core)": [[3, "data_juicer.core.Monitor", false]], "monitor (class in data_juicer.core.monitor)": [[3, "data_juicer.core.monitor.Monitor", false]], "monitor_all_resources() (data_juicer.core.monitor method)": [[3, "data_juicer.core.Monitor.monitor_all_resources", false]], "monitor_all_resources() (data_juicer.core.monitor.monitor method)": [[3, "data_juicer.core.monitor.Monitor.monitor_all_resources", false]], "monitor_current_resources() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.monitor_current_resources", false]], "monitor_current_resources() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.monitor_current_resources", false]], "monitor_func() (data_juicer.core.monitor static method)": [[3, "data_juicer.core.Monitor.monitor_func", false]], "monitor_func() (data_juicer.core.monitor.monitor static method)": [[3, "data_juicer.core.monitor.Monitor.monitor_func", false]], "mostrelavantentitiesaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator", false]], "mostrelavantentitiesaggregator (class in data_juicer.ops.aggregator.most_relavant_entities_aggregator)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator", false]], "multimodal_data_output_dir (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.multimodal_data_output_dir", false]], "naivegrouper (class in data_juicer.ops.grouper)": [[10, "data_juicer.ops.grouper.NaiveGrouper", false]], "naivegrouper (class in data_juicer.ops.grouper.naive_grouper)": [[10, "data_juicer.ops.grouper.naive_grouper.NaiveGrouper", false]], "name (data_juicer.analysis.measure.crossentropymeasure attribute)": [[1, "data_juicer.analysis.measure.CrossEntropyMeasure.name", false]], "name (data_juicer.analysis.measure.entropymeasure attribute)": [[1, "data_juicer.analysis.measure.EntropyMeasure.name", false]], "name (data_juicer.analysis.measure.jsdivmeasure attribute)": [[1, "data_juicer.analysis.measure.JSDivMeasure.name", false]], "name (data_juicer.analysis.measure.kldivmeasure attribute)": [[1, "data_juicer.analysis.measure.KLDivMeasure.name", false]], "name (data_juicer.analysis.measure.measure attribute)": [[1, "data_juicer.analysis.measure.Measure.name", false]], "name (data_juicer.analysis.measure.relatedttestmeasure attribute)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.name", false]], "name (data_juicer.utils.registry.registry property)": [[14, "data_juicer.utils.registry.Registry.name", false]], "namespace_to_arg_list() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.namespace_to_arg_list", false]], "nested_access() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.nested_access", false]], "nested_obj_factory() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_obj_factory", false]], "nested_query() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.nested_query", false]], "nested_set() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.nested_set", false]], "nestedaggregator (class in data_juicer.ops.aggregator)": [[6, "data_juicer.ops.aggregator.NestedAggregator", false]], "nestedaggregator (class in data_juicer.ops.aggregator.nested_aggregator)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator", false]], "nesteddataset (class in data_juicer.core)": [[3, "data_juicer.core.NestedDataset", false]], "nesteddataset (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDataset", false]], "nesteddatasetdict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedDatasetDict", false]], "nestedquerydict (class in data_juicer.core.data)": [[3, "data_juicer.core.data.NestedQueryDict", false]], "nickname (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.nickname", false]], "nlpaugenmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper", false]], "nlpaugenmapper (class in data_juicer.ops.mapper.nlpaug_en_mapper)": [[11, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper", false]], "nlpcdazhmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper", false]], "nlpcdazhmapper (class in data_juicer.ops.mapper.nlpcda_zh_mapper)": [[11, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper", false]], "null_value (data_juicer.format.empty_formatter.emptyformatter property)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.null_value", false]], "null_value (data_juicer.format.empty_formatter.rayemptyformatter property)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.null_value", false]], "null_value (data_juicer.format.emptyformatter property)": [[4, "data_juicer.format.EmptyFormatter.null_value", false]], "null_value (data_juicer.format.rayemptyformatter property)": [[4, "data_juicer.format.RayEmptyFormatter.null_value", false]], "num_action (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_action", false]], "num_dependency_edges (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_dependency_edges", false]], "num_token (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_token", false]], "num_words (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.num_words", false]], "op (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.OP", false]], "optimal_param() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.optimal_param", false]], "optimizeqamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper", false]], "optimizeqamapper (class in data_juicer.ops.mapper.optimize_qa_mapper)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper", false]], "optimizequerymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper", false]], "optimizequerymapper (class in data_juicer.ops.mapper.optimize_query_mapper)": [[11, "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper", false]], "optimizeresponsemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper", false]], "optimizeresponsemapper (class in data_juicer.ops.mapper.optimize_response_mapper)": [[11, "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper", false]], "overallanalysis (class in data_juicer.analysis)": [[1, "data_juicer.analysis.OverallAnalysis", false]], "overallanalysis (class in data_juicer.analysis.overall_analysis)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis", false]], "pairpreferencemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper", false]], "pairpreferencemapper (class in data_juicer.ops.mapper.pair_preference_mapper)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper", false]], "parquetformatter (class in data_juicer.format)": [[4, "data_juicer.format.ParquetFormatter", false]], "parquetformatter (class in data_juicer.format.parquet_formatter)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter", false]], "parse_output() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.parse_output", false]], "parse_output() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrate_query_mapper.calibratequerymapper method)": [[11, "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrate_response_mapper.calibrateresponsemapper method)": [[11, "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibratequerymapper method)": [[11, "data_juicer.ops.mapper.CalibrateQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.calibrateresponsemapper method)": [[11, "data_juicer.ops.mapper.CalibrateResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generate_qa_from_text_mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimize_query_mapper.optimizequerymapper method)": [[11, "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimize_response_mapper.optimizeresponsemapper method)": [[11, "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizequerymapper method)": [[11, "data_juicer.ops.mapper.OptimizeQueryMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.optimizeresponsemapper method)": [[11, "data_juicer.ops.mapper.OptimizeResponseMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.parse_output", false]], "parse_output() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.parse_output", false]], "parse_string_to_roi() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.parse_string_to_roi", false]], "perplexity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.perplexity", false]], "perplexityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.PerplexityFilter", false]], "perplexityfilter (class in data_juicer.ops.filter.perplexity_filter)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter", false]], "phrase_grounding_recall (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.phrase_grounding_recall", false]], "phrasegroundingrecallfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter", false]], "phrasegroundingrecallfilter (class in data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter", false]], "pil_to_opencv() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.pil_to_opencv", false]], "prepare_api_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_api_model", false]], "prepare_converter() (in module data_juicer.ops.mapper.chinese_convert_mapper)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.prepare_converter", false]], "prepare_diffusion_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_diffusion_model", false]], "prepare_fasttext_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_fasttext_model", false]], "prepare_huggingface_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_huggingface_model", false]], "prepare_kenlm_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_kenlm_model", false]], "prepare_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_model", false]], "prepare_nltk_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_nltk_model", false]], "prepare_opencv_classifier() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_opencv_classifier", false]], "prepare_recognizeanything_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_recognizeAnything_model", false]], "prepare_sentencepiece_for_lang() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_sentencepiece_for_lang", false]], "prepare_sentencepiece_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_sentencepiece_model", false]], "prepare_side_configs() (in module data_juicer.config)": [[2, "data_juicer.config.prepare_side_configs", false]], "prepare_side_configs() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.prepare_side_configs", false]], "prepare_simple_aesthetics_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_simple_aesthetics_model", false]], "prepare_spacy_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_spacy_model", false]], "prepare_video_blip_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_video_blip_model", false]], "prepare_vllm_model() (in module data_juicer.utils.model_utils)": [[14, "data_juicer.utils.model_utils.prepare_vllm_model", false]], "preprocess_dataset() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.preprocess_dataset", false]], "probe_small_batch() (data_juicer.core.adapter method)": [[3, "data_juicer.core.Adapter.probe_small_batch", false]], "probe_small_batch() (data_juicer.core.adapter.adapter method)": [[3, "data_juicer.core.adapter.Adapter.probe_small_batch", false]], "process() (data_juicer.core.data.djdataset method)": [[3, "data_juicer.core.data.DJDataset.process", false]], "process() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.process", false]], "process() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.process", false]], "process() (data_juicer.core.ray_data.raydataset method)": [[3, "data_juicer.core.ray_data.RayDataset.process", false]], "process() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.process", false]], "process() (data_juicer.ops.base_op.grouper method)": [[5, "data_juicer.ops.base_op.Grouper.process", false]], "process() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.process", false]], "process() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.process", false]], "process() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.process", false]], "process() (data_juicer.ops.deduplicator.document_deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.document_minhash_deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.document_simhash_deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentminhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.documentsimhashdeduplicator method)": [[8, "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.image_deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.imagededuplicator method)": [[8, "data_juicer.ops.deduplicator.ImageDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.video_deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator.process", false]], "process() (data_juicer.ops.deduplicator.videodeduplicator method)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator.process", false]], "process() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.process", false]], "process() (data_juicer.ops.grouper.key_value_grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper.process", false]], "process() (data_juicer.ops.grouper.keyvaluegrouper method)": [[10, "data_juicer.ops.grouper.KeyValueGrouper.process", false]], "process() (data_juicer.ops.grouper.naive_grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.naive_grouper.NaiveGrouper.process", false]], "process() (data_juicer.ops.grouper.naivegrouper method)": [[10, "data_juicer.ops.grouper.NaiveGrouper.process", false]], "process() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.process", false]], "process() (data_juicer.ops.selector.frequency_specified_field_selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.frequencyspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.FrequencySpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.random_selector.randomselector method)": [[12, "data_juicer.ops.selector.random_selector.RandomSelector.process", false]], "process() (data_juicer.ops.selector.randomselector method)": [[12, "data_juicer.ops.selector.RandomSelector.process", false]], "process() (data_juicer.ops.selector.range_specified_field_selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.rangespecifiedfieldselector method)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.topk_specified_field_selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector.process", false]], "process() (data_juicer.ops.selector.topkspecifiedfieldselector method)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector.process", false]], "process_batched() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process_batched", false]], "process_batched() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process_batched", false]], "process_batched() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.process_batched", false]], "process_batched() (data_juicer.ops.filter.alphanumeric_filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.alphanumericfilter method)": [[9, "data_juicer.ops.filter.AlphanumericFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.average_line_length_filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.averagelinelengthfilter method)": [[9, "data_juicer.ops.filter.AverageLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.character_repetition_filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.characterrepetitionfilter method)": [[9, "data_juicer.ops.filter.CharacterRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.flagged_words_filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.flaggedwordfilter method)": [[9, "data_juicer.ops.filter.FlaggedWordFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.image_aspect_ratio_filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.imageaspectratiofilter method)": [[9, "data_juicer.ops.filter.ImageAspectRatioFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.maximum_line_length_filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.maximumlinelengthfilter method)": [[9, "data_juicer.ops.filter.MaximumLineLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.perplexity_filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.perplexity_filter.PerplexityFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.perplexityfilter method)": [[9, "data_juicer.ops.filter.PerplexityFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.special_characters_filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.specialcharactersfilter method)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.text_length_filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.textlengthfilter method)": [[9, "data_juicer.ops.filter.TextLengthFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.word_repetition_filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.wordrepetitionfilter method)": [[9, "data_juicer.ops.filter.WordRepetitionFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.words_num_filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter.process_batched", false]], "process_batched() (data_juicer.ops.filter.wordsnumfilter method)": [[9, "data_juicer.ops.filter.WordsNumFilter.process_batched", false]], "process_batched() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.chinese_convert_mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.chineseconvertmapper method)": [[11, "data_juicer.ops.mapper.ChineseConvertMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_copyright_mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_email_mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_html_mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_ip_mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.clean_links_mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleancopyrightmapper method)": [[11, "data_juicer.ops.mapper.CleanCopyrightMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanemailmapper method)": [[11, "data_juicer.ops.mapper.CleanEmailMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanhtmlmapper method)": [[11, "data_juicer.ops.mapper.CleanHtmlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanipmapper method)": [[11, "data_juicer.ops.mapper.CleanIpMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.cleanlinksmapper method)": [[11, "data_juicer.ops.mapper.CleanLinksMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.expand_macro_mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.expandmacromapper method)": [[11, "data_juicer.ops.mapper.ExpandMacroMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.extract_event_mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.extracteventmapper method)": [[11, "data_juicer.ops.mapper.ExtractEventMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.fix_unicode_mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.fixunicodemapper method)": [[11, "data_juicer.ops.mapper.FixUnicodeMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.generate_qa_from_text_mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.generateqafromtextmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.image_captioning_mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.image_diffusion_mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagecaptioningfromgpt4vmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagecaptioningmapper method)": [[11, "data_juicer.ops.mapper.ImageCaptioningMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.imagediffusionmapper method)": [[11, "data_juicer.ops.mapper.ImageDiffusionMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpaug_en_mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpaugenmapper method)": [[11, "data_juicer.ops.mapper.NlpaugEnMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpcda_zh_mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.nlpcdazhmapper method)": [[11, "data_juicer.ops.mapper.NlpcdaZhMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.punctuation_normalization_mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.punctuationnormalizationmapper method)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.python_file_mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.python_lambda_mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_bibliography_mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_comments_mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_header_mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_non_chinese_character_mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_repeat_sentences_mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_specific_chars_mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_table_text_mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removebibliographymapper method)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removecommentsmapper method)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removeheadermapper method)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removenonchinesecharacterlmapper method)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removerepeatsentencesmapper method)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removespecificcharsmapper method)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removetabletextmapper method)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.replace_content_mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.replacecontentmapper method)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.sentence_split_mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.sentencesplitmapper method)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_audio_mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_frames_mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_captioning_from_video_mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_split_by_duration_mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.video_split_by_key_frame_mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromsummarizermapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videocaptioningfromvideomapper method)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.videosplitbykeyframemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.whitespace_normalization_mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.mapper.whitespacenormalizationmapper method)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper.process_batched", false]], "process_batched() (data_juicer.ops.op_fusion.fusedfilter method)": [[5, "data_juicer.ops.op_fusion.FusedFilter.process_batched", false]], "process_each_frame() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.process_each_frame", false]], "process_single() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.entity_attribute_aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.entityattributeaggregator method)": [[6, "data_juicer.ops.aggregator.EntityAttributeAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.process_single", false]], "process_single() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.process_single", false]], "process_single() (data_juicer.ops.base_op.aggregator method)": [[5, "data_juicer.ops.base_op.Aggregator.process_single", false]], "process_single() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.process_single", false]], "process_single() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.process_single", false]], "process_single() (data_juicer.ops.deduplicator.ray_basic_deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator.process_single", false]], "process_single() (data_juicer.ops.deduplicator.raybasicdeduplicator method)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator.process_single", false]], "process_single() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.process_single", false]], "process_single() (data_juicer.ops.filter.audio_duration_filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audio_nmf_snr_filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audio_size_filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audiodurationfilter method)": [[9, "data_juicer.ops.filter.AudioDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audionmfsnrfilter method)": [[9, "data_juicer.ops.filter.AudioNMFSNRFilter.process_single", false]], "process_single() (data_juicer.ops.filter.audiosizefilter method)": [[9, "data_juicer.ops.filter.AudioSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_aesthetics_filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_face_count_filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_face_ratio_filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_nsfw_filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_pair_similarity_filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_shape_filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_size_filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.image_size_filter.ImageSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_text_matching_filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_text_similarity_filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.image_watermark_filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imageaestheticsfilter method)": [[9, "data_juicer.ops.filter.ImageAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagefacecountfilter method)": [[9, "data_juicer.ops.filter.ImageFaceCountFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagefaceratiofilter method)": [[9, "data_juicer.ops.filter.ImageFaceRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagensfwfilter method)": [[9, "data_juicer.ops.filter.ImageNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagepairsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImagePairSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imageshapefilter method)": [[9, "data_juicer.ops.filter.ImageShapeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagesizefilter method)": [[9, "data_juicer.ops.filter.ImageSizeFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagetextmatchingfilter method)": [[9, "data_juicer.ops.filter.ImageTextMatchingFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagetextsimilarityfilter method)": [[9, "data_juicer.ops.filter.ImageTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.imagewatermarkfilter method)": [[9, "data_juicer.ops.filter.ImageWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.language_id_score_filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.languageidscorefilter method)": [[9, "data_juicer.ops.filter.LanguageIDScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.phrase_grounding_recall_filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter.process_single", false]], "process_single() (data_juicer.ops.filter.phrasegroundingrecallfilter method)": [[9, "data_juicer.ops.filter.PhraseGroundingRecallFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specified_field_filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specified_numeric_field_filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specifiedfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.specifiednumericfieldfilter method)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter.process_single", false]], "process_single() (data_juicer.ops.filter.stopwords_filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.stopwordsfilter method)": [[9, "data_juicer.ops.filter.StopWordsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.suffix_filter.suffixfilter method)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter.process_single", false]], "process_single() (data_juicer.ops.filter.suffixfilter method)": [[9, "data_juicer.ops.filter.SuffixFilter.process_single", false]], "process_single() (data_juicer.ops.filter.text_action_filter.textactionfilter method)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.text_entity_dependency_filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter.process_single", false]], "process_single() (data_juicer.ops.filter.textactionfilter method)": [[9, "data_juicer.ops.filter.TextActionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.textentitydependencyfilter method)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter.process_single", false]], "process_single() (data_juicer.ops.filter.token_num_filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter.process_single", false]], "process_single() (data_juicer.ops.filter.tokennumfilter method)": [[9, "data_juicer.ops.filter.TokenNumFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_aesthetics_filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_aspect_ratio_filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_duration_filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_frames_text_similarity_filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_nsfw_filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_ocr_area_ratio_filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_resolution_filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_tagging_from_frames_filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter.process_single", false]], "process_single() (data_juicer.ops.filter.video_watermark_filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoaestheticsfilter method)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoaspectratiofilter method)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videodurationfilter method)": [[9, "data_juicer.ops.filter.VideoDurationFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoframestextsimilarityfilter method)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videonsfwfilter method)": [[9, "data_juicer.ops.filter.VideoNSFWFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoocrarearatiofilter method)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videoresolutionfilter method)": [[9, "data_juicer.ops.filter.VideoResolutionFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videotaggingfromframesfilter method)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter.process_single", false]], "process_single() (data_juicer.ops.filter.videowatermarkfilter method)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter.process_single", false]], "process_single() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.process_single", false]], "process_single() (data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.audioffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.AudioFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.calibrate_qa_mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.calibrateqamapper method)": [[11, "data_juicer.ops.mapper.CalibrateQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_entity_attribute_mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_entity_relation_mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_keyword_mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_nickname_mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extract_support_text_mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractentityattributemapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityAttributeMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractentityrelationmapper method)": [[11, "data_juicer.ops.mapper.ExtractEntityRelationMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractkeywordmapper method)": [[11, "data_juicer.ops.mapper.ExtractKeywordMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractnicknamemapper method)": [[11, "data_juicer.ops.mapper.ExtractNicknameMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.extractsupporttextmapper method)": [[11, "data_juicer.ops.mapper.ExtractSupportTextMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.generate_qa_from_examples_mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.generateqafromexamplesmapper method)": [[11, "data_juicer.ops.mapper.GenerateQAFromExamplesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.image_blur_mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.image_face_blur_mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.image_tagging_mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imageblurmapper method)": [[11, "data_juicer.ops.mapper.ImageBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imagefaceblurmapper method)": [[11, "data_juicer.ops.mapper.ImageFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.imagetaggingmapper method)": [[11, "data_juicer.ops.mapper.ImageTaggingMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.optimize_qa_mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.optimizeqamapper method)": [[11, "data_juicer.ops.mapper.OptimizeQAMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pair_preference_mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pairpreferencemapper method)": [[11, "data_juicer.ops.mapper.PairPreferenceMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.python_file_mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.python_lambda_mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pythonfilemapper method)": [[11, "data_juicer.ops.mapper.PythonFileMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.pythonlambdamapper method)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.relation_identity_mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.relationidentitymapper method)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_extract_frames_mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_face_blur_mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_remove_watermark_mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_resize_resolution_mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_split_by_scene_mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_tagging_from_audio_mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.video_tagging_from_frames_mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoextractframesmapper method)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videofaceblurmapper method)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoffmpegwrappedmapper method)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoremovewatermarkmapper method)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoresizeaspectratiomapper method)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videoresizeresolutionmapper method)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videosplitbyscenemapper method)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videotaggingfromaudiomapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper.process_single", false]], "process_single() (data_juicer.ops.mapper.videotaggingfromframesmapper method)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper.process_single", false]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PunctuationNormalizationMapper", false]], "punctuationnormalizationmapper (class in data_juicer.ops.mapper.punctuation_normalization_mapper)": [[11, "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper", false]], "pythonfilemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PythonFileMapper", false]], "pythonfilemapper (class in data_juicer.ops.mapper.python_file_mapper)": [[11, "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper", false]], "pythonlambdamapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.PythonLambdaMapper", false]], "pythonlambdamapper (class in data_juicer.ops.mapper.python_lambda_mapper)": [[11, "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper", false]], "query_cuda_info() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.query_cuda_info", false]], "query_mem_info() (in module data_juicer.utils.resource_utils)": [[14, "data_juicer.utils.resource_utils.query_mem_info", false]], "query_most_relavant_entities() (data_juicer.ops.aggregator.most_relavant_entities_aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities", false]], "query_most_relavant_entities() (data_juicer.ops.aggregator.mostrelavantentitiesaggregator method)": [[6, "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator.query_most_relavant_entities", false]], "random_sample() (data_juicer.format.mixture_formatter.mixtureformatter class method)": [[4, "data_juicer.format.mixture_formatter.MixtureFormatter.random_sample", false]], "random_sample() (data_juicer.format.mixtureformatter class method)": [[4, "data_juicer.format.MixtureFormatter.random_sample", false]], "randomselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.RandomSelector", false]], "randomselector (class in data_juicer.ops.selector.random_selector)": [[12, "data_juicer.ops.selector.random_selector.RandomSelector", false]], "rangespecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.RangeSpecifiedFieldSelector", false]], "rangespecifiedfieldselector (class in data_juicer.ops.selector.range_specified_field_selector)": [[12, "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector", false]], "raybasicdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayBasicDeduplicator", false]], "raybasicdeduplicator (class in data_juicer.ops.deduplicator.ray_basic_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator", false]], "raydataset (class in data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.RayDataset", false]], "raydocumentdeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayDocumentDeduplicator", false]], "raydocumentdeduplicator (class in data_juicer.ops.deduplicator.ray_document_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator", false]], "rayemptyformatter (class in data_juicer.format)": [[4, "data_juicer.format.RayEmptyFormatter", false]], "rayemptyformatter (class in data_juicer.format.empty_formatter)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter", false]], "rayexecutor (class in data_juicer.core.ray_executor)": [[3, "data_juicer.core.ray_executor.RayExecutor", false]], "rayimagededuplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayImageDeduplicator", false]], "rayimagededuplicator (class in data_juicer.ops.deduplicator.ray_image_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator", false]], "rayvideodeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.RayVideoDeduplicator", false]], "rayvideodeduplicator (class in data_juicer.ops.deduplicator.ray_video_deduplicator)": [[8, "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator", false]], "read_json() (data_juicer.core.ray_data.raydataset class method)": [[3, "data_juicer.core.ray_data.RayDataset.read_json", false]], "read_json_stream() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.read_json_stream", false]], "record() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.record", false]], "recursive_summary() (data_juicer.ops.aggregator.nested_aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator.recursive_summary", false]], "recursive_summary() (data_juicer.ops.aggregator.nestedaggregator method)": [[6, "data_juicer.ops.aggregator.NestedAggregator.recursive_summary", false]], "recursively_chunk() (data_juicer.ops.mapper.text_chunk_mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper.recursively_chunk", false]], "recursively_chunk() (data_juicer.ops.mapper.textchunkmapper method)": [[11, "data_juicer.ops.mapper.TextChunkMapper.recursively_chunk", false]], "redirect_sys_output() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.redirect_sys_output", false]], "refine_single_column() (data_juicer.analysis.overall_analysis.overallanalysis method)": [[1, "data_juicer.analysis.overall_analysis.OverallAnalysis.refine_single_column", false]], "refine_single_column() (data_juicer.analysis.overallanalysis method)": [[1, "data_juicer.analysis.OverallAnalysis.refine_single_column", false]], "refined_words (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.refined_words", false]], "register_module() (data_juicer.utils.registry.registry method)": [[14, "data_juicer.utils.registry.Registry.register_module", false]], "registry (class in data_juicer.utils.registry)": [[14, "data_juicer.utils.registry.Registry", false]], "relatedttestmeasure (class in data_juicer.analysis.measure)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure", false]], "relation (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.relation", false]], "relation_description (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.relation_description", false]], "relation_keywords (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.relation_keywords", false]], "relation_strength (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.relation_strength", false]], "relationidentitymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RelationIdentityMapper", false]], "relationidentitymapper (class in data_juicer.ops.mapper.relation_identity_mapper)": [[11, "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper", false]], "relevant_characters (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.relevant_characters", false]], "remoteformatter (class in data_juicer.format)": [[4, "data_juicer.format.RemoteFormatter", false]], "remoteformatter (class in data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.RemoteFormatter", false]], "remove_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.remove_columns", false]], "remove_columns() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.remove_columns", false]], "remove_extra_parameters() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.remove_extra_parameters", false]], "remove_non_special_tokens() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.remove_non_special_tokens", false]], "remove_punctuation() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.remove_punctuation", false]], "remove_special_tokens() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.remove_special_tokens", false]], "removebibliographymapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveBibliographyMapper", false]], "removebibliographymapper (class in data_juicer.ops.mapper.remove_bibliography_mapper)": [[11, "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper", false]], "removecommentsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveCommentsMapper", false]], "removecommentsmapper (class in data_juicer.ops.mapper.remove_comments_mapper)": [[11, "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper", false]], "removeheadermapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveHeaderMapper", false]], "removeheadermapper (class in data_juicer.ops.mapper.remove_header_mapper)": [[11, "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper", false]], "removelongwordsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper", false]], "removelongwordsmapper (class in data_juicer.ops.mapper.remove_long_words_mapper)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper", false]], "removenonchinesecharacterlmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper", false]], "removenonchinesecharacterlmapper (class in data_juicer.ops.mapper.remove_non_chinese_character_mapper)": [[11, "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper", false]], "removerepeatsentencesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveRepeatSentencesMapper", false]], "removerepeatsentencesmapper (class in data_juicer.ops.mapper.remove_repeat_sentences_mapper)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper", false]], "removespecificcharsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveSpecificCharsMapper", false]], "removespecificcharsmapper (class in data_juicer.ops.mapper.remove_specific_chars_mapper)": [[11, "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper", false]], "removetabletextmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveTableTextMapper", false]], "removetabletextmapper (class in data_juicer.ops.mapper.remove_table_text_mapper)": [[11, "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper", false]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper", false]], "removewordswithincorrectsubstringsmapper (class in data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper", false]], "replace_func() (in module data_juicer.ops.mapper.video_split_by_scene_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.replace_func", false]], "replacecontentmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.ReplaceContentMapper", false]], "replacecontentmapper (class in data_juicer.ops.mapper.replace_content_mapper)": [[11, "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper", false]], "rescale() (in module data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.rescale", false]], "resource_monitor() (in module data_juicer.core.monitor)": [[3, "data_juicer.core.monitor.resource_monitor", false]], "run() (data_juicer.core.analyzer method)": [[3, "data_juicer.core.Analyzer.run", false]], "run() (data_juicer.core.analyzer.analyzer method)": [[3, "data_juicer.core.analyzer.Analyzer.run", false]], "run() (data_juicer.core.executor method)": [[3, "data_juicer.core.Executor.run", false]], "run() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.run", false]], "run() (data_juicer.core.ray_executor.rayexecutor method)": [[3, "data_juicer.core.ray_executor.RayExecutor.run", false]], "run() (data_juicer.ops.aggregator method)": [[5, "data_juicer.ops.Aggregator.run", false]], "run() (data_juicer.ops.base_op.aggregator method)": [[5, "data_juicer.ops.base_op.Aggregator.run", false]], "run() (data_juicer.ops.base_op.deduplicator method)": [[5, "data_juicer.ops.base_op.Deduplicator.run", false]], "run() (data_juicer.ops.base_op.filter method)": [[5, "data_juicer.ops.base_op.Filter.run", false]], "run() (data_juicer.ops.base_op.grouper method)": [[5, "data_juicer.ops.base_op.Grouper.run", false]], "run() (data_juicer.ops.base_op.mapper method)": [[5, "data_juicer.ops.base_op.Mapper.run", false]], "run() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.run", false]], "run() (data_juicer.ops.base_op.selector method)": [[5, "data_juicer.ops.base_op.Selector.run", false]], "run() (data_juicer.ops.deduplicator method)": [[5, "data_juicer.ops.Deduplicator.run", false]], "run() (data_juicer.ops.filter method)": [[5, "data_juicer.ops.Filter.run", false]], "run() (data_juicer.ops.grouper method)": [[5, "data_juicer.ops.Grouper.run", false]], "run() (data_juicer.ops.mapper method)": [[5, "data_juicer.ops.Mapper.run", false]], "run() (data_juicer.ops.selector method)": [[5, "data_juicer.ops.Selector.run", false]], "run_ner() (in module data_juicer.ops.filter.phrase_grounding_recall_filter)": [[9, "data_juicer.ops.filter.phrase_grounding_recall_filter.run_ner", false]], "run_single_op() (data_juicer.utils.unittest_utils.datajuicertestcasebase method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.run_single_op", false]], "runtime_np() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.runtime_np", false]], "sample_data() (data_juicer.core.executor method)": [[3, "data_juicer.core.Executor.sample_data", false]], "sample_data() (data_juicer.core.executor.executor method)": [[3, "data_juicer.core.executor.Executor.sample_data", false]], "sampled_frames (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.sampled_frames", false]], "save_ckpt() (data_juicer.utils.ckpt_utils.checkpointmanager method)": [[14, "data_juicer.utils.ckpt_utils.CheckpointManager.save_ckpt", false]], "select() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select", false]], "select() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.select", false]], "select_columns() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.select_columns", false]], "select_columns() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.select_columns", false]], "selector (class in data_juicer.ops)": [[5, "data_juicer.ops.Selector", false]], "selector (class in data_juicer.ops.base_op)": [[5, "data_juicer.ops.base_op.Selector", false]], "sentencesplitmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.SentenceSplitMapper", false]], "sentencesplitmapper (class in data_juicer.ops.mapper.sentence_split_mapper)": [[11, "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper", false]], "separate_signal_noise() (in module data_juicer.ops.filter.audio_nmf_snr_filter)": [[9, "data_juicer.ops.filter.audio_nmf_snr_filter.separate_signal_noise", false]], "set_clear_model_flag() (in module data_juicer.utils.unittest_utils)": [[14, "data_juicer.utils.unittest_utils.set_clear_model_flag", false]], "set_dataset_to_absolute_path() (in module data_juicer.core.ray_data)": [[3, "data_juicer.core.ray_data.set_dataset_to_absolute_path", false]], "setup_logger() (in module data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.setup_logger", false]], "setup_model() (data_juicer.ops.filter.video_motion_score_filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.video_motion_score_raft_filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.videomotionscorefilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter.setup_model", false]], "setup_model() (data_juicer.ops.filter.videomotionscoreraftfilter method)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter.setup_model", false]], "setup_mp() (in module data_juicer.utils.process_utils)": [[14, "data_juicer.utils.process_utils.setup_mp", false]], "setupclass() (data_juicer.utils.unittest_utils.datajuicertestcasebase class method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.setUpClass", false]], "sha1_hash32() (in module data_juicer.ops.deduplicator.document_minhash_deduplicator)": [[8, "data_juicer.ops.deduplicator.document_minhash_deduplicator.sha1_hash32", false]], "should_keep_long_word() (data_juicer.ops.mapper.remove_long_words_mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper.should_keep_long_word", false]], "should_keep_long_word() (data_juicer.ops.mapper.removelongwordsmapper method)": [[11, "data_juicer.ops.mapper.RemoveLongWordsMapper.should_keep_long_word", false]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings", false]], "should_keep_word_with_incorrect_substrings() (data_juicer.ops.mapper.removewordswithincorrectsubstringsmapper method)": [[11, "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper.should_keep_word_with_incorrect_substrings", false]], "simhash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.simhash", false]], "size_to_bytes() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.size_to_bytes", false]], "sort_op_by_types_and_names() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.sort_op_by_types_and_names", false]], "source_entity (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.source_entity", false]], "source_file (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.source_file", false]], "special_char_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.special_char_ratio", false]], "specialcharactersfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecialCharactersFilter", false]], "specialcharactersfilter (class in data_juicer.ops.filter.special_characters_filter)": [[9, "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter", false]], "specialtokens (class in data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.SpecialTokens", false]], "specifiedfieldfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecifiedFieldFilter", false]], "specifiedfieldfilter (class in data_juicer.ops.filter.specified_field_filter)": [[9, "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter", false]], "specifiednumericfieldfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SpecifiedNumericFieldFilter", false]], "specifiednumericfieldfilter (class in data_juicer.ops.filter.specified_numeric_field_filter)": [[9, "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter", false]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_newline_tab_whitespace", false]], "split_on_newline_tab_whitespace() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.split_on_newline_tab_whitespace", false]], "split_on_whitespace() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_on_whitespace", false]], "split_on_whitespace() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.split_on_whitespace", false]], "split_sentence() (in module data_juicer.ops.mapper.remove_repeat_sentences_mapper)": [[11, "data_juicer.ops.mapper.remove_repeat_sentences_mapper.split_sentence", false]], "split_text_by_punctuation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.split_text_by_punctuation", false]], "split_text_by_punctuation() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.split_text_by_punctuation", false]], "split_videos_by_duration() (data_juicer.ops.mapper.video_split_by_duration_mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper.split_videos_by_duration", false]], "split_videos_by_duration() (data_juicer.ops.mapper.videosplitbydurationmapper method)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper.split_videos_by_duration", false]], "stats (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.stats", false]], "stats_to_hist() (data_juicer.analysis.measure.relatedttestmeasure static method)": [[1, "data_juicer.analysis.measure.RelatedTTestMeasure.stats_to_hist", false]], "stats_to_number() (in module data_juicer.utils.common_utils)": [[14, "data_juicer.utils.common_utils.stats_to_number", false]], "statskeys (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.StatsKeys", false]], "statskeysconstant (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.StatsKeysConstant", false]], "statskeysmeta (class in data_juicer.utils.constant)": [[14, "data_juicer.utils.constant.StatsKeysMeta", false]], "stopwords_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.stopwords_ratio", false]], "stopwordsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.StopWordsFilter", false]], "stopwordsfilter (class in data_juicer.ops.filter.stopwords_filter)": [[9, "data_juicer.ops.filter.stopwords_filter.StopWordsFilter", false]], "strategy (data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.videoresizeaspectratiomapper attribute)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper.STRATEGY", false]], "strategy (data_juicer.ops.mapper.videoresizeaspectratiomapper attribute)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper.STRATEGY", false]], "streamtologuru (class in data_juicer.utils.logger_utils)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru", false]], "strip() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.strip", false]], "strip() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.strip", false]], "suffix (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.suffix", false]], "suffixes (data_juicer.format.csv_formatter.csvformatter attribute)": [[4, "data_juicer.format.csv_formatter.CsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.csvformatter attribute)": [[4, "data_juicer.format.CsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.empty_formatter.emptyformatter attribute)": [[4, "data_juicer.format.empty_formatter.EmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.empty_formatter.rayemptyformatter attribute)": [[4, "data_juicer.format.empty_formatter.RayEmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.emptyformatter attribute)": [[4, "data_juicer.format.EmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.json_formatter.jsonformatter attribute)": [[4, "data_juicer.format.json_formatter.JsonFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.jsonformatter attribute)": [[4, "data_juicer.format.JsonFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.parquet_formatter.parquetformatter attribute)": [[4, "data_juicer.format.parquet_formatter.ParquetFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.parquetformatter attribute)": [[4, "data_juicer.format.ParquetFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.rayemptyformatter attribute)": [[4, "data_juicer.format.RayEmptyFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.text_formatter.textformatter attribute)": [[4, "data_juicer.format.text_formatter.TextFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.textformatter attribute)": [[4, "data_juicer.format.TextFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.tsv_formatter.tsvformatter attribute)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter.SUFFIXES", false]], "suffixes (data_juicer.format.tsvformatter attribute)": [[4, "data_juicer.format.TsvFormatter.SUFFIXES", false]], "suffixfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.SuffixFilter", false]], "suffixfilter (class in data_juicer.ops.filter.suffix_filter)": [[9, "data_juicer.ops.filter.suffix_filter.SuffixFilter", false]], "support_text (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.support_text", false]], "take_batch() (data_juicer.core.adapter static method)": [[3, "data_juicer.core.Adapter.take_batch", false]], "take_batch() (data_juicer.core.adapter.adapter static method)": [[3, "data_juicer.core.adapter.Adapter.take_batch", false]], "target_entity (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.target_entity", false]], "teardown() (data_juicer.utils.unittest_utils.datajuicertestcasebase class method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDown", false]], "teardownclass() (data_juicer.utils.unittest_utils.datajuicertestcasebase class method)": [[14, "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase.tearDownClass", false]], "test_tag() (in module data_juicer.utils.unittest_utils)": [[14, "data_juicer.utils.unittest_utils.TEST_TAG", false]], "text_len (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.text_len", false]], "textactionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextActionFilter", false]], "textactionfilter (class in data_juicer.ops.filter.text_action_filter)": [[9, "data_juicer.ops.filter.text_action_filter.TextActionFilter", false]], "textchunkmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.TextChunkMapper", false]], "textchunkmapper (class in data_juicer.ops.mapper.text_chunk_mapper)": [[11, "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper", false]], "textentitydependencyfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextEntityDependencyFilter", false]], "textentitydependencyfilter (class in data_juicer.ops.filter.text_entity_dependency_filter)": [[9, "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter", false]], "textformatter (class in data_juicer.format)": [[4, "data_juicer.format.TextFormatter", false]], "textformatter (class in data_juicer.format.text_formatter)": [[4, "data_juicer.format.text_formatter.TextFormatter", false]], "textlengthfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TextLengthFilter", false]], "textlengthfilter (class in data_juicer.ops.filter.text_length_filter)": [[9, "data_juicer.ops.filter.text_length_filter.TextLengthFilter", false]], "texttokendistcollector (class in data_juicer.analysis.collector)": [[1, "data_juicer.analysis.collector.TextTokenDistCollector", false]], "tib (data_juicer.core.exporter attribute)": [[3, "data_juicer.core.Exporter.TiB", false]], "tib (data_juicer.core.exporter.exporter attribute)": [[3, "data_juicer.core.exporter.Exporter.TiB", false]], "timecode_string_to_seconds() (in module data_juicer.utils.mm_utils)": [[14, "data_juicer.utils.mm_utils.timecode_string_to_seconds", false]], "to_json() (data_juicer.core.exporter static method)": [[3, "data_juicer.core.Exporter.to_json", false]], "to_json() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_json", false]], "to_jsonl() (data_juicer.core.exporter static method)": [[3, "data_juicer.core.Exporter.to_jsonl", false]], "to_jsonl() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_jsonl", false]], "to_parquet() (data_juicer.core.exporter static method)": [[3, "data_juicer.core.Exporter.to_parquet", false]], "to_parquet() (data_juicer.core.exporter.exporter static method)": [[3, "data_juicer.core.exporter.Exporter.to_parquet", false]], "tokennumfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.TokenNumFilter", false]], "tokennumfilter (class in data_juicer.ops.filter.token_num_filter)": [[9, "data_juicer.ops.filter.token_num_filter.TokenNumFilter", false]], "topkspecifiedfieldselector (class in data_juicer.ops.selector)": [[12, "data_juicer.ops.selector.TopkSpecifiedFieldSelector", false]], "topkspecifiedfieldselector (class in data_juicer.ops.selector.topk_specified_field_selector)": [[12, "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector", false]], "trace_batch_mapper() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_batch_mapper", false]], "trace_batch_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_batch_mapper", false]], "trace_deduplicator() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_deduplicator", false]], "trace_deduplicator() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_deduplicator", false]], "trace_filter() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_filter", false]], "trace_filter() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_filter", false]], "trace_mapper() (data_juicer.core.tracer method)": [[3, "data_juicer.core.Tracer.trace_mapper", false]], "trace_mapper() (data_juicer.core.tracer.tracer method)": [[3, "data_juicer.core.tracer.Tracer.trace_mapper", false]], "tracer (class in data_juicer.core)": [[3, "data_juicer.core.Tracer", false]], "tracer (class in data_juicer.core.tracer)": [[3, "data_juicer.core.tracer.Tracer", false]], "transfer_filename() (in module data_juicer.utils.file_utils)": [[14, "data_juicer.utils.file_utils.transfer_filename", false]], "triangle_area() (in module data_juicer.ops.filter.video_ocr_area_ratio_filter)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.triangle_area", false]], "tsvformatter (class in data_juicer.format)": [[4, "data_juicer.format.TsvFormatter", false]], "tsvformatter (class in data_juicer.format.tsv_formatter)": [[4, "data_juicer.format.tsv_formatter.TsvFormatter", false]], "unify_format() (in module data_juicer.format.formatter)": [[4, "data_juicer.format.formatter.unify_format", false]], "union() (data_juicer.ops.common.helper_func.unionfind method)": [[7, "data_juicer.ops.common.helper_func.UnionFind.union", false]], "unionfind (class in data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.UnionFind", false]], "update() (data_juicer.utils.fingerprint_utils.hasher method)": [[14, "data_juicer.utils.fingerprint_utils.Hasher.update", false]], "update_args() (data_juicer.core.data.nesteddataset method)": [[3, "data_juicer.core.data.NestedDataset.update_args", false]], "update_args() (data_juicer.core.nesteddataset method)": [[3, "data_juicer.core.NestedDataset.update_args", false]], "update_ds_cache_dir_and_related_vars() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.update_ds_cache_dir_and_related_vars", false]], "update_fingerprint() (in module data_juicer.utils.fingerprint_utils)": [[14, "data_juicer.utils.fingerprint_utils.update_fingerprint", false]], "update_op_attr() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.update_op_attr", false]], "update_op_process() (in module data_juicer.config.config)": [[2, "data_juicer.config.config.update_op_process", false]], "use_cuda() (data_juicer.ops.base_op.op method)": [[5, "data_juicer.ops.base_op.OP.use_cuda", false]], "video (data_juicer.utils.mm_utils.specialtokens attribute)": [[14, "data_juicer.utils.mm_utils.SpecialTokens.video", false]], "video_aesthetic_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_aesthetic_score", false]], "video_aspect_ratios (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_aspect_ratios", false]], "video_audio_tags (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.video_audio_tags", false]], "video_duration (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_duration", false]], "video_frame_tags (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.video_frame_tags", false]], "video_frames (data_juicer.utils.constant.fields attribute)": [[14, "data_juicer.utils.constant.Fields.video_frames", false]], "video_frames_aesthetics_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_frames_aesthetics_score", false]], "video_frames_text_similarity (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_frames_text_similarity", false]], "video_height (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_height", false]], "video_motion_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_motion_score", false]], "video_nsfw_score (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_nsfw_score", false]], "video_ocr_area_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_ocr_area_ratio", false]], "video_watermark_prob (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_watermark_prob", false]], "video_width (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.video_width", false]], "videoaestheticsfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoAestheticsFilter", false]], "videoaestheticsfilter (class in data_juicer.ops.filter.video_aesthetics_filter)": [[9, "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter", false]], "videoaspectratiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoAspectRatioFilter", false]], "videoaspectratiofilter (class in data_juicer.ops.filter.video_aspect_ratio_filter)": [[9, "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter", false]], "videocaptioningfromaudiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper", false]], "videocaptioningfromaudiomapper (class in data_juicer.ops.mapper.video_captioning_from_audio_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper", false]], "videocaptioningfromframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper", false]], "videocaptioningfromframesmapper (class in data_juicer.ops.mapper.video_captioning_from_frames_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper", false]], "videocaptioningfromsummarizermapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper", false]], "videocaptioningfromsummarizermapper (class in data_juicer.ops.mapper.video_captioning_from_summarizer_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper", false]], "videocaptioningfromvideomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper", false]], "videocaptioningfromvideomapper (class in data_juicer.ops.mapper.video_captioning_from_video_mapper)": [[11, "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper", false]], "videocapture() (in module data_juicer.ops.filter.video_motion_score_filter)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoCapture", false]], "videodeduplicator (class in data_juicer.ops.deduplicator)": [[8, "data_juicer.ops.deduplicator.VideoDeduplicator", false]], "videodeduplicator (class in data_juicer.ops.deduplicator.video_deduplicator)": [[8, "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator", false]], "videodurationfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoDurationFilter", false]], "videodurationfilter (class in data_juicer.ops.filter.video_duration_filter)": [[9, "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter", false]], "videoextractframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoExtractFramesMapper", false]], "videoextractframesmapper (class in data_juicer.ops.mapper.video_extract_frames_mapper)": [[11, "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper", false]], "videofaceblurmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoFaceBlurMapper", false]], "videofaceblurmapper (class in data_juicer.ops.mapper.video_face_blur_mapper)": [[11, "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper", false]], "videoffmpegwrappedmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoFFmpegWrappedMapper", false]], "videoffmpegwrappedmapper (class in data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper)": [[11, "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper", false]], "videoframestextsimilarityfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoFramesTextSimilarityFilter", false]], "videoframestextsimilarityfilter (class in data_juicer.ops.filter.video_frames_text_similarity_filter)": [[9, "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter", false]], "videohash (data_juicer.utils.constant.hashkeys attribute)": [[14, "data_juicer.utils.constant.HashKeys.videohash", false]], "videomotionscorefilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoMotionScoreFilter", false]], "videomotionscorefilter (class in data_juicer.ops.filter.video_motion_score_filter)": [[9, "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter", false]], "videomotionscoreraftfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoMotionScoreRaftFilter", false]], "videomotionscoreraftfilter (class in data_juicer.ops.filter.video_motion_score_raft_filter)": [[9, "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter", false]], "videonsfwfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoNSFWFilter", false]], "videonsfwfilter (class in data_juicer.ops.filter.video_nsfw_filter)": [[9, "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter", false]], "videoocrarearatiofilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoOcrAreaRatioFilter", false]], "videoocrarearatiofilter (class in data_juicer.ops.filter.video_ocr_area_ratio_filter)": [[9, "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter", false]], "videoremovewatermarkmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoRemoveWatermarkMapper", false]], "videoremovewatermarkmapper (class in data_juicer.ops.mapper.video_remove_watermark_mapper)": [[11, "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper", false]], "videoresizeaspectratiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoResizeAspectRatioMapper", false]], "videoresizeaspectratiomapper (class in data_juicer.ops.mapper.video_resize_aspect_ratio_mapper)": [[11, "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper", false]], "videoresizeresolutionmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoResizeResolutionMapper", false]], "videoresizeresolutionmapper (class in data_juicer.ops.mapper.video_resize_resolution_mapper)": [[11, "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper", false]], "videoresolutionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoResolutionFilter", false]], "videoresolutionfilter (class in data_juicer.ops.filter.video_resolution_filter)": [[9, "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter", false]], "videosplitbydurationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitByDurationMapper", false]], "videosplitbydurationmapper (class in data_juicer.ops.mapper.video_split_by_duration_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper", false]], "videosplitbykeyframemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper", false]], "videosplitbykeyframemapper (class in data_juicer.ops.mapper.video_split_by_key_frame_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper", false]], "videosplitbyscenemapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoSplitBySceneMapper", false]], "videosplitbyscenemapper (class in data_juicer.ops.mapper.video_split_by_scene_mapper)": [[11, "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper", false]], "videotaggingfromaudiomapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoTaggingFromAudioMapper", false]], "videotaggingfromaudiomapper (class in data_juicer.ops.mapper.video_tagging_from_audio_mapper)": [[11, "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper", false]], "videotaggingfromframesfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoTaggingFromFramesFilter", false]], "videotaggingfromframesfilter (class in data_juicer.ops.filter.video_tagging_from_frames_filter)": [[9, "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter", false]], "videotaggingfromframesmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.VideoTaggingFromFramesMapper", false]], "videotaggingfromframesmapper (class in data_juicer.ops.mapper.video_tagging_from_frames_mapper)": [[11, "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper", false]], "videowatermarkfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.VideoWatermarkFilter", false]], "videowatermarkfilter (class in data_juicer.ops.filter.video_watermark_filter)": [[9, "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter", false]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper)": [[11, "data_juicer.ops.mapper.WhitespaceNormalizationMapper", false]], "whitespacenormalizationmapper (class in data_juicer.ops.mapper.whitespace_normalization_mapper)": [[11, "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper", false]], "word_rep_ratio (data_juicer.utils.constant.statskeysconstant attribute)": [[14, "data_juicer.utils.constant.StatsKeysConstant.word_rep_ratio", false]], "wordrepetitionfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.WordRepetitionFilter", false]], "wordrepetitionfilter (class in data_juicer.ops.filter.word_repetition_filter)": [[9, "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter", false]], "words (data_juicer.utils.constant.intervars attribute)": [[14, "data_juicer.utils.constant.InterVars.words", false]], "words_augmentation() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_augmentation", false]], "words_augmentation() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.words_augmentation", false]], "words_refinement() (in module data_juicer.ops.common)": [[7, "data_juicer.ops.common.words_refinement", false]], "words_refinement() (in module data_juicer.ops.common.helper_func)": [[7, "data_juicer.ops.common.helper_func.words_refinement", false]], "wordsnumfilter (class in data_juicer.ops.filter)": [[9, "data_juicer.ops.filter.WordsNumFilter", false]], "wordsnumfilter (class in data_juicer.ops.filter.words_num_filter)": [[9, "data_juicer.ops.filter.words_num_filter.WordsNumFilter", false]], "wrap_func_with_nested_access() (in module data_juicer.core.data)": [[3, "data_juicer.core.data.wrap_func_with_nested_access", false]], "write() (data_juicer.utils.logger_utils.streamtologuru method)": [[14, "data_juicer.utils.logger_utils.StreamToLoguru.write", false]], "zstdcompressor (class in data_juicer.utils.compress)": [[14, "data_juicer.utils.compress.ZstdCompressor", false]]}, "objects": {"": [[0, 0, 0, "-", "data_juicer"]], "data_juicer": [[1, 0, 0, "-", "analysis"], [2, 0, 0, "-", "config"], [3, 0, 0, "-", "core"], [0, 3, 1, "", "cuda_device_count"], [4, 0, 0, "-", "format"], [0, 3, 1, "", "is_cuda_available"], [5, 0, 0, "-", "ops"], [13, 0, 0, "-", "tools"], [14, 0, 0, "-", "utils"]], "data_juicer.analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 1, 1, "", "DiversityAnalysis"], [1, 1, 1, "", "OverallAnalysis"], [1, 0, 0, "-", "collector"], [1, 0, 0, "-", "column_wise_analysis"], [1, 0, 0, "-", "diversity_analysis"], [1, 0, 0, "-", "draw"], [1, 0, 0, "-", "measure"], [1, 0, 0, "-", "overall_analysis"]], "data_juicer.analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"], [1, 2, 1, "", "draw_wordcloud"]], "data_juicer.analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "refine_single_column"]], "data_juicer.analysis.collector": [[1, 1, 1, "", "TextTokenDistCollector"]], "data_juicer.analysis.collector.TextTokenDistCollector": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "collect"]], "data_juicer.analysis.column_wise_analysis": [[1, 1, 1, "", "ColumnWiseAnalysis"], [1, 3, 1, "", "get_row_col"]], "data_juicer.analysis.column_wise_analysis.ColumnWiseAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "draw_box"], [1, 2, 1, "", "draw_hist"], [1, 2, 1, "", "draw_wordcloud"]], "data_juicer.analysis.diversity_analysis": [[1, 1, 1, "", "DiversityAnalysis"], [1, 3, 1, "", "find_root_verb_and_its_dobj"], [1, 3, 1, "", "find_root_verb_and_its_dobj_in_string"], [1, 3, 1, "", "get_diversity"]], "data_juicer.analysis.diversity_analysis.DiversityAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "compute"]], "data_juicer.analysis.draw": [[1, 3, 1, "", "draw_heatmap"]], "data_juicer.analysis.measure": [[1, 1, 1, "", "CrossEntropyMeasure"], [1, 1, 1, "", "EntropyMeasure"], [1, 1, 1, "", "JSDivMeasure"], [1, 1, 1, "", "KLDivMeasure"], [1, 1, 1, "", "Measure"], [1, 1, 1, "", "RelatedTTestMeasure"]], "data_juicer.analysis.measure.CrossEntropyMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.EntropyMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.JSDivMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.KLDivMeasure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.Measure": [[1, 2, 1, "", "measure"], [1, 4, 1, "", "name"]], "data_juicer.analysis.measure.RelatedTTestMeasure": [[1, 2, 1, "", "category_to_hist"], [1, 2, 1, "", "measure"], [1, 4, 1, "", "name"], [1, 2, 1, "", "stats_to_hist"]], "data_juicer.analysis.overall_analysis": [[1, 1, 1, "", "OverallAnalysis"]], "data_juicer.analysis.overall_analysis.OverallAnalysis": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "analyze"], [1, 2, 1, "", "refine_single_column"]], "data_juicer.config": [[2, 0, 0, "-", "config"], [2, 3, 1, "", "export_config"], [2, 3, 1, "", "get_init_configs"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "merge_config"], [2, 3, 1, "", "prepare_side_configs"]], "data_juicer.config.config": [[2, 3, 1, "", "config_backup"], [2, 3, 1, "", "display_config"], [2, 3, 1, "", "export_config"], [2, 3, 1, "", "get_init_configs"], [2, 3, 1, "", "init_configs"], [2, 3, 1, "", "init_setup_from_cfg"], [2, 3, 1, "", "load_ops_with_stats_meta"], [2, 3, 1, "", "merge_config"], [2, 3, 1, "", "namespace_to_arg_list"], [2, 3, 1, "", "prepare_side_configs"], [2, 3, 1, "", "sort_op_by_types_and_names"], [2, 3, 1, "", "update_ds_cache_dir_and_related_vars"], [2, 3, 1, "", "update_op_attr"], [2, 3, 1, "", "update_op_process"]], "data_juicer.core": [[3, 1, 1, "", "Adapter"], [3, 1, 1, "", "Analyzer"], [3, 1, 1, "", "Executor"], [3, 1, 1, "", "Exporter"], [3, 1, 1, "", "Monitor"], [3, 1, 1, "", "NestedDataset"], [3, 1, 1, "", "Tracer"], [3, 0, 0, "-", "adapter"], [3, 0, 0, "-", "analyzer"], [3, 0, 0, "-", "data"], [3, 0, 0, "-", "executor"], [3, 0, 0, "-", "exporter"], [3, 0, 0, "-", "monitor"], [3, 0, 0, "-", "ray_data"], [3, 0, 0, "-", "ray_executor"], [3, 0, 0, "-", "tracer"]], "data_juicer.core.Adapter": [[3, 4, 1, "", "MAX_BATCH_SIZE"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "adapt_workloads"], [3, 2, 1, "", "analyze_small_batch"], [3, 2, 1, "", "batch_size_strategy"], [3, 2, 1, "", "execute_and_probe"], [3, 2, 1, "", "insight_mining"], [3, 2, 1, "", "probe_small_batch"], [3, 2, 1, "", "take_batch"]], "data_juicer.core.Analyzer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.Executor": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"], [3, 2, 1, "", "sample_data"]], "data_juicer.core.Exporter": [[3, 4, 1, "", "GiB"], [3, 4, 1, "", "KiB"], [3, 4, 1, "", "MiB"], [3, 4, 1, "", "TiB"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "export"], [3, 2, 1, "", "export_compute_stats"], [3, 2, 1, "", "to_json"], [3, 2, 1, "", "to_jsonl"], [3, 2, 1, "", "to_parquet"]], "data_juicer.core.Monitor": [[3, 4, 1, "", "DYNAMIC_FIELDS"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "analyze_resource_util_list"], [3, 2, 1, "", "analyze_single_resource_util"], [3, 2, 1, "", "draw_resource_util_graph"], [3, 2, 1, "", "monitor_all_resources"], [3, 2, 1, "", "monitor_current_resources"], [3, 2, 1, "", "monitor_func"]], "data_juicer.core.NestedDataset": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "add_column"], [3, 2, 1, "", "cleanup_cache_files"], [3, 2, 1, "", "filter"], [3, 2, 1, "", "from_dict"], [3, 2, 1, "", "load_from_disk"], [3, 2, 1, "", "map"], [3, 2, 1, "", "process"], [3, 2, 1, "", "remove_columns"], [3, 2, 1, "", "select"], [3, 2, 1, "", "select_columns"], [3, 2, 1, "", "update_args"]], "data_juicer.core.Tracer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "trace_batch_mapper"], [3, 2, 1, "", "trace_deduplicator"], [3, 2, 1, "", "trace_filter"], [3, 2, 1, "", "trace_mapper"]], "data_juicer.core.adapter": [[3, 1, 1, "", "Adapter"]], "data_juicer.core.adapter.Adapter": [[3, 4, 1, "", "MAX_BATCH_SIZE"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "adapt_workloads"], [3, 2, 1, "", "analyze_small_batch"], [3, 2, 1, "", "batch_size_strategy"], [3, 2, 1, "", "execute_and_probe"], [3, 2, 1, "", "insight_mining"], [3, 2, 1, "", "probe_small_batch"], [3, 2, 1, "", "take_batch"]], "data_juicer.core.analyzer": [[3, 1, 1, "", "Analyzer"]], "data_juicer.core.analyzer.Analyzer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.data": [[3, 1, 1, "", "DJDataset"], [3, 1, 1, "", "NestedDataset"], [3, 1, 1, "", "NestedDatasetDict"], [3, 1, 1, "", "NestedQueryDict"], [3, 3, 1, "", "add_same_content_to_new_column"], [3, 3, 1, "", "nested_obj_factory"], [3, 3, 1, "", "nested_query"], [3, 3, 1, "", "wrap_func_with_nested_access"]], "data_juicer.core.data.DJDataset": [[3, 2, 1, "", "process"]], "data_juicer.core.data.NestedDataset": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "add_column"], [3, 2, 1, "", "cleanup_cache_files"], [3, 2, 1, "", "filter"], [3, 2, 1, "", "from_dict"], [3, 2, 1, "", "load_from_disk"], [3, 2, 1, "", "map"], [3, 2, 1, "", "process"], [3, 2, 1, "", "remove_columns"], [3, 2, 1, "", "select"], [3, 2, 1, "", "select_columns"], [3, 2, 1, "", "update_args"]], "data_juicer.core.data.NestedDatasetDict": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "map"]], "data_juicer.core.data.NestedQueryDict": [[3, 2, 1, "", "__init__"]], "data_juicer.core.executor": [[3, 1, 1, "", "Executor"]], "data_juicer.core.executor.Executor": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"], [3, 2, 1, "", "sample_data"]], "data_juicer.core.exporter": [[3, 1, 1, "", "Exporter"]], "data_juicer.core.exporter.Exporter": [[3, 4, 1, "", "GiB"], [3, 4, 1, "", "KiB"], [3, 4, 1, "", "MiB"], [3, 4, 1, "", "TiB"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "export"], [3, 2, 1, "", "export_compute_stats"], [3, 2, 1, "", "to_json"], [3, 2, 1, "", "to_jsonl"], [3, 2, 1, "", "to_parquet"]], "data_juicer.core.monitor": [[3, 1, 1, "", "Monitor"], [3, 3, 1, "", "resource_monitor"]], "data_juicer.core.monitor.Monitor": [[3, 4, 1, "", "DYNAMIC_FIELDS"], [3, 2, 1, "", "__init__"], [3, 2, 1, "", "analyze_resource_util_list"], [3, 2, 1, "", "analyze_single_resource_util"], [3, 2, 1, "", "draw_resource_util_graph"], [3, 2, 1, "", "monitor_all_resources"], [3, 2, 1, "", "monitor_current_resources"], [3, 2, 1, "", "monitor_func"]], "data_juicer.core.ray_data": [[3, 1, 1, "", "JSONStreamDatasource"], [3, 1, 1, "", "RayDataset"], [3, 3, 1, "", "convert_to_absolute_paths"], [3, 3, 1, "", "filter_batch"], [3, 3, 1, "", "get_abs_path"], [3, 3, 1, "", "get_num_gpus"], [3, 3, 1, "", "preprocess_dataset"], [3, 3, 1, "", "read_json_stream"], [3, 3, 1, "", "set_dataset_to_absolute_path"]], "data_juicer.core.ray_data.RayDataset": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "process"], [3, 2, 1, "", "read_json"]], "data_juicer.core.ray_executor": [[3, 1, 1, "", "RayExecutor"]], "data_juicer.core.ray_executor.RayExecutor": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "run"]], "data_juicer.core.tracer": [[3, 1, 1, "", "Tracer"]], "data_juicer.core.tracer.Tracer": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "trace_batch_mapper"], [3, 2, 1, "", "trace_deduplicator"], [3, 2, 1, "", "trace_filter"], [3, 2, 1, "", "trace_mapper"]], "data_juicer.format": [[4, 1, 1, "", "CsvFormatter"], [4, 1, 1, "", "EmptyFormatter"], [4, 1, 1, "", "JsonFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "MixtureFormatter"], [4, 1, 1, "", "ParquetFormatter"], [4, 1, 1, "", "RayEmptyFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 1, 1, "", "TextFormatter"], [4, 1, 1, "", "TsvFormatter"], [4, 0, 0, "-", "csv_formatter"], [4, 0, 0, "-", "empty_formatter"], [4, 0, 0, "-", "formatter"], [4, 0, 0, "-", "json_formatter"], [4, 0, 0, "-", "load"], [4, 3, 1, "", "load_formatter"], [4, 0, 0, "-", "mixture_formatter"], [4, 0, 0, "-", "parquet_formatter"], [4, 0, 0, "-", "text_formatter"], [4, 0, 0, "-", "tsv_formatter"]], "data_juicer.format.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.EmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 2, 1, "", "random_sample"]], "data_juicer.format.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.RayEmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.csv_formatter": [[4, 1, 1, "", "CsvFormatter"]], "data_juicer.format.csv_formatter.CsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.empty_formatter": [[4, 1, 1, "", "EmptyFormatter"], [4, 1, 1, "", "RayEmptyFormatter"]], "data_juicer.format.empty_formatter.EmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.empty_formatter.RayEmptyFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 5, 1, "", "null_value"]], "data_juicer.format.formatter": [[4, 1, 1, "", "BaseFormatter"], [4, 1, 1, "", "LocalFormatter"], [4, 1, 1, "", "RemoteFormatter"], [4, 3, 1, "", "add_suffixes"], [4, 3, 1, "", "load_formatter"], [4, 3, 1, "", "unify_format"]], "data_juicer.format.formatter.BaseFormatter": [[4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.LocalFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.formatter.RemoteFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.json_formatter": [[4, 1, 1, "", "JsonFormatter"]], "data_juicer.format.json_formatter.JsonFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.load": [[4, 3, 1, "", "load_formatter"]], "data_juicer.format.mixture_formatter": [[4, 1, 1, "", "MixtureFormatter"]], "data_juicer.format.mixture_formatter.MixtureFormatter": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"], [4, 2, 1, "", "random_sample"]], "data_juicer.format.parquet_formatter": [[4, 1, 1, "", "ParquetFormatter"]], "data_juicer.format.parquet_formatter.ParquetFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.format.text_formatter": [[4, 1, 1, "", "TextFormatter"], [4, 3, 1, "", "extract_txt_from_docx"], [4, 3, 1, "", "extract_txt_from_pdf"]], "data_juicer.format.text_formatter.TextFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"], [4, 2, 1, "", "load_dataset"]], "data_juicer.format.tsv_formatter": [[4, 1, 1, "", "TsvFormatter"]], "data_juicer.format.tsv_formatter.TsvFormatter": [[4, 4, 1, "", "SUFFIXES"], [4, 2, 1, "", "__init__"]], "data_juicer.ops": [[5, 1, 1, "", "Aggregator"], [5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Grouper"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "Selector"], [6, 0, 0, "-", "aggregator"], [5, 0, 0, "-", "base_op"], [7, 0, 0, "-", "common"], [8, 0, 0, "-", "deduplicator"], [9, 0, 0, "-", "filter"], [10, 0, 0, "-", "grouper"], [5, 0, 0, "-", "load"], [5, 3, 1, "", "load_ops"], [11, 0, 0, "-", "mapper"], [5, 0, 0, "-", "op_fusion"], [12, 0, 0, "-", "selector"]], "data_juicer.ops.Aggregator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Deduplicator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.Filter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "compute_stats_single"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Grouper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.Mapper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.Selector": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.aggregator": [[6, 1, 1, "", "EntityAttributeAggregator"], [6, 1, 1, "", "MostRelavantEntitiesAggregator"], [6, 1, 1, "", "NestedAggregator"], [6, 0, 0, "-", "entity_attribute_aggregator"], [6, 0, 0, "-", "most_relavant_entities_aggregator"], [6, 0, 0, "-", "nested_aggregator"]], "data_juicer.ops.aggregator.EntityAttributeAggregator": [[6, 4, 1, "", "DEFAULT_EXAMPLE_PROMPT"], [6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "attribute_summary"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.MostRelavantEntitiesAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "query_most_relavant_entities"]], "data_juicer.ops.aggregator.NestedAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SUB_DOC_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "recursive_summary"]], "data_juicer.ops.aggregator.entity_attribute_aggregator": [[6, 1, 1, "", "EntityAttributeAggregator"]], "data_juicer.ops.aggregator.entity_attribute_aggregator.EntityAttributeAggregator": [[6, 4, 1, "", "DEFAULT_EXAMPLE_PROMPT"], [6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "attribute_summary"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator": [[6, 1, 1, "", "MostRelavantEntitiesAggregator"]], "data_juicer.ops.aggregator.most_relavant_entities_aggregator.MostRelavantEntitiesAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [6, 4, 1, "", "DEFAULT_SYSTEM_TEMPLATE"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "query_most_relavant_entities"]], "data_juicer.ops.aggregator.nested_aggregator": [[6, 1, 1, "", "NestedAggregator"]], "data_juicer.ops.aggregator.nested_aggregator.NestedAggregator": [[6, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SUB_DOC_TEMPLATE"], [6, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [6, 2, 1, "", "__init__"], [6, 2, 1, "", "parse_output"], [6, 2, 1, "", "process_single"], [6, 2, 1, "", "recursive_summary"]], "data_juicer.ops.base_op": [[5, 1, 1, "", "Aggregator"], [5, 1, 1, "", "Deduplicator"], [5, 1, 1, "", "Filter"], [5, 1, 1, "", "Grouper"], [5, 1, 1, "", "Mapper"], [5, 1, 1, "", "OP"], [5, 1, 1, "", "Selector"], [5, 3, 1, "", "catch_map_batches_exception"], [5, 3, 1, "", "catch_map_single_exception"], [5, 3, 1, "", "convert_arrow_to_python"], [5, 3, 1, "", "convert_dict_list_to_list_dict"], [5, 3, 1, "", "convert_list_dict_to_dict_list"]], "data_juicer.ops.base_op.Aggregator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Deduplicator": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_hash"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Filter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "compute_stats_single"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Grouper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.Mapper": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process_batched"], [5, 2, 1, "", "process_single"], [5, 2, 1, "", "run"]], "data_juicer.ops.base_op.OP": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "add_parameters"], [5, 2, 1, "", "empty_history"], [5, 2, 1, "", "is_batched_op"], [5, 2, 1, "", "process"], [5, 2, 1, "", "remove_extra_parameters"], [5, 2, 1, "", "run"], [5, 2, 1, "", "runtime_np"], [5, 2, 1, "", "use_cuda"]], "data_juicer.ops.base_op.Selector": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "process"], [5, 2, 1, "", "run"]], "data_juicer.ops.common": [[7, 3, 1, "", "get_sentences_from_document"], [7, 3, 1, "", "get_words_from_document"], [7, 0, 0, "-", "helper_func"], [7, 3, 1, "", "merge_on_whitespace_tab_newline"], [7, 0, 0, "-", "special_characters"], [7, 3, 1, "", "split_on_newline_tab_whitespace"], [7, 3, 1, "", "split_on_whitespace"], [7, 3, 1, "", "split_text_by_punctuation"], [7, 3, 1, "", "strip"], [7, 3, 1, "", "words_augmentation"], [7, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func": [[7, 1, 1, "", "UnionFind"], [7, 3, 1, "", "get_sentences_from_document"], [7, 3, 1, "", "get_words_from_document"], [7, 3, 1, "", "merge_on_whitespace_tab_newline"], [7, 3, 1, "", "split_on_newline_tab_whitespace"], [7, 3, 1, "", "split_on_whitespace"], [7, 3, 1, "", "split_text_by_punctuation"], [7, 3, 1, "", "strip"], [7, 3, 1, "", "words_augmentation"], [7, 3, 1, "", "words_refinement"]], "data_juicer.ops.common.helper_func.UnionFind": [[7, 2, 1, "", "__init__"], [7, 2, 1, "", "find"], [7, 2, 1, "", "union"]], "data_juicer.ops.deduplicator": [[8, 1, 1, "", "DocumentDeduplicator"], [8, 1, 1, "", "DocumentMinhashDeduplicator"], [8, 1, 1, "", "DocumentSimhashDeduplicator"], [8, 1, 1, "", "ImageDeduplicator"], [8, 1, 1, "", "RayBasicDeduplicator"], [8, 1, 1, "", "RayDocumentDeduplicator"], [8, 1, 1, "", "RayImageDeduplicator"], [8, 1, 1, "", "RayVideoDeduplicator"], [8, 1, 1, "", "VideoDeduplicator"], [8, 0, 0, "-", "document_deduplicator"], [8, 0, 0, "-", "document_minhash_deduplicator"], [8, 0, 0, "-", "document_simhash_deduplicator"], [8, 0, 0, "-", "image_deduplicator"], [8, 0, 0, "-", "ray_basic_deduplicator"], [8, 0, 0, "-", "ray_document_deduplicator"], [8, 0, 0, "-", "ray_image_deduplicator"], [8, 0, 0, "-", "ray_video_deduplicator"], [8, 0, 0, "-", "video_deduplicator"]], "data_juicer.ops.deduplicator.DocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.DocumentMinhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.DocumentSimhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.ImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.RayBasicDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"], [8, 2, 1, "", "compute_stats_single"], [8, 2, 1, "", "process_single"]], "data_juicer.ops.deduplicator.RayDocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.RayImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.RayVideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.VideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_deduplicator": [[8, 1, 1, "", "DocumentDeduplicator"]], "data_juicer.ops.deduplicator.document_deduplicator.DocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator": [[8, 1, 1, "", "DocumentMinhashDeduplicator"], [8, 3, 1, "", "optimal_param"], [8, 3, 1, "", "sha1_hash32"]], "data_juicer.ops.deduplicator.document_minhash_deduplicator.DocumentMinhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator": [[8, 1, 1, "", "DocumentSimhashDeduplicator"]], "data_juicer.ops.deduplicator.document_simhash_deduplicator.DocumentSimhashDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.image_deduplicator": [[8, 1, 1, "", "ImageDeduplicator"], [8, 3, 1, "", "get_hash_method"]], "data_juicer.ops.deduplicator.image_deduplicator.ImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator": [[8, 1, 1, "", "RayBasicDeduplicator"]], "data_juicer.ops.deduplicator.ray_basic_deduplicator.RayBasicDeduplicator": [[8, 4, 1, "", "EMPTY_HASH_VALUE"], [8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"], [8, 2, 1, "", "compute_stats_single"], [8, 2, 1, "", "process_single"]], "data_juicer.ops.deduplicator.ray_document_deduplicator": [[8, 1, 1, "", "RayDocumentDeduplicator"]], "data_juicer.ops.deduplicator.ray_document_deduplicator.RayDocumentDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.ray_image_deduplicator": [[8, 1, 1, "", "RayImageDeduplicator"], [8, 3, 1, "", "get_hash_method"]], "data_juicer.ops.deduplicator.ray_image_deduplicator.RayImageDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.ray_video_deduplicator": [[8, 1, 1, "", "RayVideoDeduplicator"]], "data_juicer.ops.deduplicator.ray_video_deduplicator.RayVideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "calculate_hash"]], "data_juicer.ops.deduplicator.video_deduplicator": [[8, 1, 1, "", "VideoDeduplicator"]], "data_juicer.ops.deduplicator.video_deduplicator.VideoDeduplicator": [[8, 2, 1, "", "__init__"], [8, 2, 1, "", "compute_hash"], [8, 2, 1, "", "process"]], "data_juicer.ops.filter": [[9, 1, 1, "", "AlphanumericFilter"], [9, 1, 1, "", "AudioDurationFilter"], [9, 1, 1, "", "AudioNMFSNRFilter"], [9, 1, 1, "", "AudioSizeFilter"], [9, 1, 1, "", "AverageLineLengthFilter"], [9, 1, 1, "", "CharacterRepetitionFilter"], [9, 1, 1, "", "FlaggedWordFilter"], [9, 1, 1, "", "ImageAestheticsFilter"], [9, 1, 1, "", "ImageAspectRatioFilter"], [9, 1, 1, "", "ImageFaceCountFilter"], [9, 1, 1, "", "ImageFaceRatioFilter"], [9, 1, 1, "", "ImageNSFWFilter"], [9, 1, 1, "", "ImagePairSimilarityFilter"], [9, 1, 1, "", "ImageShapeFilter"], [9, 1, 1, "", "ImageSizeFilter"], [9, 1, 1, "", "ImageTextMatchingFilter"], [9, 1, 1, "", "ImageTextSimilarityFilter"], [9, 1, 1, "", "ImageWatermarkFilter"], [9, 1, 1, "", "LanguageIDScoreFilter"], [9, 1, 1, "", "MaximumLineLengthFilter"], [9, 1, 1, "", "PerplexityFilter"], [9, 1, 1, "", "PhraseGroundingRecallFilter"], [9, 1, 1, "", "SpecialCharactersFilter"], [9, 1, 1, "", "SpecifiedFieldFilter"], [9, 1, 1, "", "SpecifiedNumericFieldFilter"], [9, 1, 1, "", "StopWordsFilter"], [9, 1, 1, "", "SuffixFilter"], [9, 1, 1, "", "TextActionFilter"], [9, 1, 1, "", "TextEntityDependencyFilter"], [9, 1, 1, "", "TextLengthFilter"], [9, 1, 1, "", "TokenNumFilter"], [9, 1, 1, "", "VideoAestheticsFilter"], [9, 1, 1, "", "VideoAspectRatioFilter"], [9, 1, 1, "", "VideoDurationFilter"], [9, 1, 1, "", "VideoFramesTextSimilarityFilter"], [9, 1, 1, "", "VideoMotionScoreFilter"], [9, 1, 1, "", "VideoMotionScoreRaftFilter"], [9, 1, 1, "", "VideoNSFWFilter"], [9, 1, 1, "", "VideoOcrAreaRatioFilter"], [9, 1, 1, "", "VideoResolutionFilter"], [9, 1, 1, "", "VideoTaggingFromFramesFilter"], [9, 1, 1, "", "VideoWatermarkFilter"], [9, 1, 1, "", "WordRepetitionFilter"], [9, 1, 1, "", "WordsNumFilter"], [9, 0, 0, "-", "alphanumeric_filter"], [9, 0, 0, "-", "audio_duration_filter"], [9, 0, 0, "-", "audio_nmf_snr_filter"], [9, 0, 0, "-", "audio_size_filter"], [9, 0, 0, "-", "average_line_length_filter"], [9, 0, 0, "-", "character_repetition_filter"], [9, 0, 0, "-", "flagged_words_filter"], [9, 0, 0, "-", "image_aesthetics_filter"], [9, 0, 0, "-", "image_aspect_ratio_filter"], [9, 0, 0, "-", "image_face_count_filter"], [9, 0, 0, "-", "image_face_ratio_filter"], [9, 0, 0, "-", "image_nsfw_filter"], [9, 0, 0, "-", "image_pair_similarity_filter"], [9, 0, 0, "-", "image_shape_filter"], [9, 0, 0, "-", "image_size_filter"], [9, 0, 0, "-", "image_text_matching_filter"], [9, 0, 0, "-", "image_text_similarity_filter"], [9, 0, 0, "-", "image_watermark_filter"], [9, 0, 0, "-", "language_id_score_filter"], [9, 0, 0, "-", "maximum_line_length_filter"], [9, 0, 0, "-", "perplexity_filter"], [9, 0, 0, "-", "phrase_grounding_recall_filter"], [9, 0, 0, "-", "special_characters_filter"], [9, 0, 0, "-", "specified_field_filter"], [9, 0, 0, "-", "specified_numeric_field_filter"], [9, 0, 0, "-", "stopwords_filter"], [9, 0, 0, "-", "suffix_filter"], [9, 0, 0, "-", "text_action_filter"], [9, 0, 0, "-", "text_entity_dependency_filter"], [9, 0, 0, "-", "text_length_filter"], [9, 0, 0, "-", "token_num_filter"], [9, 0, 0, "-", "video_aesthetics_filter"], [9, 0, 0, "-", "video_aspect_ratio_filter"], [9, 0, 0, "-", "video_duration_filter"], [9, 0, 0, "-", "video_frames_text_similarity_filter"], [9, 0, 0, "-", "video_motion_score_filter"], [9, 0, 0, "-", "video_motion_score_raft_filter"], [9, 0, 0, "-", "video_nsfw_filter"], [9, 0, 0, "-", "video_ocr_area_ratio_filter"], [9, 0, 0, "-", "video_resolution_filter"], [9, 0, 0, "-", "video_tagging_from_frames_filter"], [9, 0, 0, "-", "video_watermark_filter"], [9, 0, 0, "-", "word_repetition_filter"], [9, 0, 0, "-", "words_num_filter"]], "data_juicer.ops.filter.AlphanumericFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.AudioDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AudioNMFSNRFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AudioSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.AverageLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.CharacterRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.FlaggedWordFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.ImageAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.ImageFaceCountFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageFaceRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImagePairSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageShapeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageTextMatchingFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.ImageWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.LanguageIDScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.MaximumLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.PerplexityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.PhraseGroundingRecallFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SpecialCharactersFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.SpecifiedFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SpecifiedNumericFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.StopWordsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.SuffixFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextActionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextEntityDependencyFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.TextLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.TokenNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoFramesTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoMotionScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.VideoMotionScoreRaftFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.VideoNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoOcrAreaRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "get_reader"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoResolutionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoTaggingFromFramesFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.VideoWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.WordRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.WordsNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.alphanumeric_filter": [[9, 1, 1, "", "AlphanumericFilter"]], "data_juicer.ops.filter.alphanumeric_filter.AlphanumericFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.audio_duration_filter": [[9, 1, 1, "", "AudioDurationFilter"]], "data_juicer.ops.filter.audio_duration_filter.AudioDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.audio_nmf_snr_filter": [[9, 1, 1, "", "AudioNMFSNRFilter"], [9, 3, 1, "", "compute_nmf_snr"], [9, 3, 1, "", "separate_signal_noise"]], "data_juicer.ops.filter.audio_nmf_snr_filter.AudioNMFSNRFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.audio_size_filter": [[9, 1, 1, "", "AudioSizeFilter"]], "data_juicer.ops.filter.audio_size_filter.AudioSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.average_line_length_filter": [[9, 1, 1, "", "AverageLineLengthFilter"]], "data_juicer.ops.filter.average_line_length_filter.AverageLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.character_repetition_filter": [[9, 1, 1, "", "CharacterRepetitionFilter"]], "data_juicer.ops.filter.character_repetition_filter.CharacterRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.flagged_words_filter": [[9, 1, 1, "", "FlaggedWordFilter"]], "data_juicer.ops.filter.flagged_words_filter.FlaggedWordFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.image_aesthetics_filter": [[9, 1, 1, "", "ImageAestheticsFilter"]], "data_juicer.ops.filter.image_aesthetics_filter.ImageAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_aspect_ratio_filter": [[9, 1, 1, "", "ImageAspectRatioFilter"]], "data_juicer.ops.filter.image_aspect_ratio_filter.ImageAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.image_face_count_filter": [[9, 1, 1, "", "ImageFaceCountFilter"]], "data_juicer.ops.filter.image_face_count_filter.ImageFaceCountFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_face_ratio_filter": [[9, 1, 1, "", "ImageFaceRatioFilter"]], "data_juicer.ops.filter.image_face_ratio_filter.ImageFaceRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_nsfw_filter": [[9, 1, 1, "", "ImageNSFWFilter"]], "data_juicer.ops.filter.image_nsfw_filter.ImageNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_pair_similarity_filter": [[9, 1, 1, "", "ImagePairSimilarityFilter"]], "data_juicer.ops.filter.image_pair_similarity_filter.ImagePairSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_shape_filter": [[9, 1, 1, "", "ImageShapeFilter"]], "data_juicer.ops.filter.image_shape_filter.ImageShapeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_size_filter": [[9, 1, 1, "", "ImageSizeFilter"]], "data_juicer.ops.filter.image_size_filter.ImageSizeFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_text_matching_filter": [[9, 1, 1, "", "ImageTextMatchingFilter"]], "data_juicer.ops.filter.image_text_matching_filter.ImageTextMatchingFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_text_similarity_filter": [[9, 1, 1, "", "ImageTextSimilarityFilter"]], "data_juicer.ops.filter.image_text_similarity_filter.ImageTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.image_watermark_filter": [[9, 1, 1, "", "ImageWatermarkFilter"]], "data_juicer.ops.filter.image_watermark_filter.ImageWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.language_id_score_filter": [[9, 1, 1, "", "LanguageIDScoreFilter"]], "data_juicer.ops.filter.language_id_score_filter.LanguageIDScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.maximum_line_length_filter": [[9, 1, 1, "", "MaximumLineLengthFilter"]], "data_juicer.ops.filter.maximum_line_length_filter.MaximumLineLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.perplexity_filter": [[9, 1, 1, "", "PerplexityFilter"]], "data_juicer.ops.filter.perplexity_filter.PerplexityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.phrase_grounding_recall_filter": [[9, 1, 1, "", "PhraseGroundingRecallFilter"], [9, 3, 1, "", "find_noun_phrases"], [9, 3, 1, "", "remove_punctuation"], [9, 3, 1, "", "run_ner"]], "data_juicer.ops.filter.phrase_grounding_recall_filter.PhraseGroundingRecallFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.special_characters_filter": [[9, 1, 1, "", "SpecialCharactersFilter"]], "data_juicer.ops.filter.special_characters_filter.SpecialCharactersFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.specified_field_filter": [[9, 1, 1, "", "SpecifiedFieldFilter"]], "data_juicer.ops.filter.specified_field_filter.SpecifiedFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.specified_numeric_field_filter": [[9, 1, 1, "", "SpecifiedNumericFieldFilter"], [9, 3, 1, "", "is_number"]], "data_juicer.ops.filter.specified_numeric_field_filter.SpecifiedNumericFieldFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.stopwords_filter": [[9, 1, 1, "", "StopWordsFilter"]], "data_juicer.ops.filter.stopwords_filter.StopWordsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.suffix_filter": [[9, 1, 1, "", "SuffixFilter"]], "data_juicer.ops.filter.suffix_filter.SuffixFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.text_action_filter": [[9, 1, 1, "", "TextActionFilter"]], "data_juicer.ops.filter.text_action_filter.TextActionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.text_entity_dependency_filter": [[9, 1, 1, "", "TextEntityDependencyFilter"]], "data_juicer.ops.filter.text_entity_dependency_filter.TextEntityDependencyFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.text_length_filter": [[9, 1, 1, "", "TextLengthFilter"]], "data_juicer.ops.filter.text_length_filter.TextLengthFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.token_num_filter": [[9, 1, 1, "", "TokenNumFilter"]], "data_juicer.ops.filter.token_num_filter.TokenNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_aesthetics_filter": [[9, 1, 1, "", "VideoAestheticsFilter"]], "data_juicer.ops.filter.video_aesthetics_filter.VideoAestheticsFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_aspect_ratio_filter": [[9, 1, 1, "", "VideoAspectRatioFilter"]], "data_juicer.ops.filter.video_aspect_ratio_filter.VideoAspectRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_duration_filter": [[9, 1, 1, "", "VideoDurationFilter"]], "data_juicer.ops.filter.video_duration_filter.VideoDurationFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_frames_text_similarity_filter": [[9, 1, 1, "", "VideoFramesTextSimilarityFilter"]], "data_juicer.ops.filter.video_frames_text_similarity_filter.VideoFramesTextSimilarityFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_motion_score_filter": [[9, 3, 1, "", "VideoCapture"], [9, 1, 1, "", "VideoMotionScoreFilter"]], "data_juicer.ops.filter.video_motion_score_filter.VideoMotionScoreFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.video_motion_score_raft_filter": [[9, 1, 1, "", "VideoMotionScoreRaftFilter"]], "data_juicer.ops.filter.video_motion_score_raft_filter.VideoMotionScoreRaftFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_flow"], [9, 2, 1, "", "setup_model"]], "data_juicer.ops.filter.video_nsfw_filter": [[9, 1, 1, "", "VideoNSFWFilter"]], "data_juicer.ops.filter.video_nsfw_filter.VideoNSFWFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_ocr_area_ratio_filter": [[9, 1, 1, "", "VideoOcrAreaRatioFilter"], [9, 3, 1, "", "triangle_area"]], "data_juicer.ops.filter.video_ocr_area_ratio_filter.VideoOcrAreaRatioFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "get_reader"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_resolution_filter": [[9, 1, 1, "", "VideoResolutionFilter"]], "data_juicer.ops.filter.video_resolution_filter.VideoResolutionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_tagging_from_frames_filter": [[9, 1, 1, "", "VideoTaggingFromFramesFilter"]], "data_juicer.ops.filter.video_tagging_from_frames_filter.VideoTaggingFromFramesFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.video_watermark_filter": [[9, 1, 1, "", "VideoWatermarkFilter"]], "data_juicer.ops.filter.video_watermark_filter.VideoWatermarkFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_single"], [9, 2, 1, "", "process_single"]], "data_juicer.ops.filter.word_repetition_filter": [[9, 1, 1, "", "WordRepetitionFilter"]], "data_juicer.ops.filter.word_repetition_filter.WordRepetitionFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.filter.words_num_filter": [[9, 1, 1, "", "WordsNumFilter"]], "data_juicer.ops.filter.words_num_filter.WordsNumFilter": [[9, 2, 1, "", "__init__"], [9, 2, 1, "", "compute_stats_batched"], [9, 2, 1, "", "process_batched"]], "data_juicer.ops.grouper": [[10, 1, 1, "", "KeyValueGrouper"], [10, 1, 1, "", "NaiveGrouper"], [10, 0, 0, "-", "key_value_grouper"], [10, 0, 0, "-", "naive_grouper"]], "data_juicer.ops.grouper.KeyValueGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.NaiveGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.key_value_grouper": [[10, 1, 1, "", "KeyValueGrouper"]], "data_juicer.ops.grouper.key_value_grouper.KeyValueGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.grouper.naive_grouper": [[10, 1, 1, "", "NaiveGrouper"]], "data_juicer.ops.grouper.naive_grouper.NaiveGrouper": [[10, 2, 1, "", "__init__"], [10, 2, 1, "", "process"]], "data_juicer.ops.load": [[5, 3, 1, "", "load_ops"]], "data_juicer.ops.mapper": [[11, 1, 1, "", "AudioFFmpegWrappedMapper"], [11, 1, 1, "", "CalibrateQAMapper"], [11, 1, 1, "", "CalibrateQueryMapper"], [11, 1, 1, "", "CalibrateResponseMapper"], [11, 1, 1, "", "ChineseConvertMapper"], [11, 1, 1, "", "CleanCopyrightMapper"], [11, 1, 1, "", "CleanEmailMapper"], [11, 1, 1, "", "CleanHtmlMapper"], [11, 1, 1, "", "CleanIpMapper"], [11, 1, 1, "", "CleanLinksMapper"], [11, 1, 1, "", "ExpandMacroMapper"], [11, 1, 1, "", "ExtractEntityAttributeMapper"], [11, 1, 1, "", "ExtractEntityRelationMapper"], [11, 1, 1, "", "ExtractEventMapper"], [11, 1, 1, "", "ExtractKeywordMapper"], [11, 1, 1, "", "ExtractNicknameMapper"], [11, 1, 1, "", "ExtractSupportTextMapper"], [11, 1, 1, "", "FixUnicodeMapper"], [11, 1, 1, "", "GenerateQAFromExamplesMapper"], [11, 1, 1, "", "GenerateQAFromTextMapper"], [11, 1, 1, "", "ImageBlurMapper"], [11, 1, 1, "", "ImageCaptioningFromGPT4VMapper"], [11, 1, 1, "", "ImageCaptioningMapper"], [11, 1, 1, "", "ImageDiffusionMapper"], [11, 1, 1, "", "ImageFaceBlurMapper"], [11, 1, 1, "", "ImageTaggingMapper"], [11, 1, 1, "", "NlpaugEnMapper"], [11, 1, 1, "", "NlpcdaZhMapper"], [11, 1, 1, "", "OptimizeQAMapper"], [11, 1, 1, "", "OptimizeQueryMapper"], [11, 1, 1, "", "OptimizeResponseMapper"], [11, 1, 1, "", "PairPreferenceMapper"], [11, 1, 1, "", "PunctuationNormalizationMapper"], [11, 1, 1, "", "PythonFileMapper"], [11, 1, 1, "", "PythonLambdaMapper"], [11, 1, 1, "", "RelationIdentityMapper"], [11, 1, 1, "", "RemoveBibliographyMapper"], [11, 1, 1, "", "RemoveCommentsMapper"], [11, 1, 1, "", "RemoveHeaderMapper"], [11, 1, 1, "", "RemoveLongWordsMapper"], [11, 1, 1, "", "RemoveNonChineseCharacterlMapper"], [11, 1, 1, "", "RemoveRepeatSentencesMapper"], [11, 1, 1, "", "RemoveSpecificCharsMapper"], [11, 1, 1, "", "RemoveTableTextMapper"], [11, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"], [11, 1, 1, "", "ReplaceContentMapper"], [11, 1, 1, "", "SentenceSplitMapper"], [11, 1, 1, "", "TextChunkMapper"], [11, 1, 1, "", "VideoCaptioningFromAudioMapper"], [11, 1, 1, "", "VideoCaptioningFromFramesMapper"], [11, 1, 1, "", "VideoCaptioningFromSummarizerMapper"], [11, 1, 1, "", "VideoCaptioningFromVideoMapper"], [11, 1, 1, "", "VideoExtractFramesMapper"], [11, 1, 1, "", "VideoFFmpegWrappedMapper"], [11, 1, 1, "", "VideoFaceBlurMapper"], [11, 1, 1, "", "VideoRemoveWatermarkMapper"], [11, 1, 1, "", "VideoResizeAspectRatioMapper"], [11, 1, 1, "", "VideoResizeResolutionMapper"], [11, 1, 1, "", "VideoSplitByDurationMapper"], [11, 1, 1, "", "VideoSplitByKeyFrameMapper"], [11, 1, 1, "", "VideoSplitBySceneMapper"], [11, 1, 1, "", "VideoTaggingFromAudioMapper"], [11, 1, 1, "", "VideoTaggingFromFramesMapper"], [11, 1, 1, "", "WhitespaceNormalizationMapper"], [11, 0, 0, "-", "audio_ffmpeg_wrapped_mapper"], [11, 0, 0, "-", "calibrate_qa_mapper"], [11, 0, 0, "-", "calibrate_query_mapper"], [11, 0, 0, "-", "calibrate_response_mapper"], [11, 0, 0, "-", "chinese_convert_mapper"], [11, 0, 0, "-", "clean_copyright_mapper"], [11, 0, 0, "-", "clean_email_mapper"], [11, 0, 0, "-", "clean_html_mapper"], [11, 0, 0, "-", "clean_ip_mapper"], [11, 0, 0, "-", "clean_links_mapper"], [11, 0, 0, "-", "expand_macro_mapper"], [11, 0, 0, "-", "extract_entity_attribute_mapper"], [11, 0, 0, "-", "extract_entity_relation_mapper"], [11, 0, 0, "-", "extract_event_mapper"], [11, 0, 0, "-", "extract_keyword_mapper"], [11, 0, 0, "-", "extract_nickname_mapper"], [11, 0, 0, "-", "extract_support_text_mapper"], [11, 0, 0, "-", "fix_unicode_mapper"], [11, 0, 0, "-", "generate_qa_from_examples_mapper"], [11, 0, 0, "-", "generate_qa_from_text_mapper"], [11, 0, 0, "-", "image_blur_mapper"], [11, 0, 0, "-", "image_captioning_from_gpt4v_mapper"], [11, 0, 0, "-", "image_captioning_mapper"], [11, 0, 0, "-", "image_diffusion_mapper"], [11, 0, 0, "-", "image_face_blur_mapper"], [11, 0, 0, "-", "image_tagging_mapper"], [11, 0, 0, "-", "nlpaug_en_mapper"], [11, 0, 0, "-", "nlpcda_zh_mapper"], [11, 0, 0, "-", "optimize_qa_mapper"], [11, 0, 0, "-", "optimize_query_mapper"], [11, 0, 0, "-", "optimize_response_mapper"], [11, 0, 0, "-", "pair_preference_mapper"], [11, 0, 0, "-", "punctuation_normalization_mapper"], [11, 0, 0, "-", "python_file_mapper"], [11, 0, 0, "-", "python_lambda_mapper"], [11, 0, 0, "-", "relation_identity_mapper"], [11, 0, 0, "-", "remove_bibliography_mapper"], [11, 0, 0, "-", "remove_comments_mapper"], [11, 0, 0, "-", "remove_header_mapper"], [11, 0, 0, "-", "remove_long_words_mapper"], [11, 0, 0, "-", "remove_non_chinese_character_mapper"], [11, 0, 0, "-", "remove_repeat_sentences_mapper"], [11, 0, 0, "-", "remove_specific_chars_mapper"], [11, 0, 0, "-", "remove_table_text_mapper"], [11, 0, 0, "-", "remove_words_with_incorrect_substrings_mapper"], [11, 0, 0, "-", "replace_content_mapper"], [11, 0, 0, "-", "sentence_split_mapper"], [11, 0, 0, "-", "text_chunk_mapper"], [11, 0, 0, "-", "video_captioning_from_audio_mapper"], [11, 0, 0, "-", "video_captioning_from_frames_mapper"], [11, 0, 0, "-", "video_captioning_from_summarizer_mapper"], [11, 0, 0, "-", "video_captioning_from_video_mapper"], [11, 0, 0, "-", "video_extract_frames_mapper"], [11, 0, 0, "-", "video_face_blur_mapper"], [11, 0, 0, "-", "video_ffmpeg_wrapped_mapper"], [11, 0, 0, "-", "video_remove_watermark_mapper"], [11, 0, 0, "-", "video_resize_aspect_ratio_mapper"], [11, 0, 0, "-", "video_resize_resolution_mapper"], [11, 0, 0, "-", "video_split_by_duration_mapper"], [11, 0, 0, "-", "video_split_by_key_frame_mapper"], [11, 0, 0, "-", "video_split_by_scene_mapper"], [11, 0, 0, "-", "video_tagging_from_audio_mapper"], [11, 0, 0, "-", "video_tagging_from_frames_mapper"], [11, 0, 0, "-", "whitespace_normalization_mapper"]], "data_juicer.ops.mapper.AudioFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.CalibrateQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_REFERENCE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.CalibrateQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.CalibrateResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.ChineseConvertMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanCopyrightMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanEmailMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanHtmlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanIpMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.CleanLinksMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExpandMacroMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExtractEntityAttributeMapper": [[11, 4, 1, "", "DEFAULT_ATTR_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_DEMON_PATTERN"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractEntityRelationMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_CONTINUE_PROMPT"], [11, 4, 1, "", "DEFAULT_ENTITY_PATTERN"], [11, 4, 1, "", "DEFAULT_ENTITY_TYPES"], [11, 4, 1, "", "DEFAULT_IF_LOOP_PROMPT"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RECORD_DELIMITER"], [11, 4, 1, "", "DEFAULT_RELATION_PATTERN"], [11, 4, 1, "", "DEFAULT_TUPLE_DELIMITER"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "add_message"], [11, 2, 1, "", "light_rag_extraction"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractEventMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ExtractKeywordMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractNicknameMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ExtractSupportTextMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.FixUnicodeMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.GenerateQAFromExamplesMapper": [[11, 4, 1, "", "DEFAULT_EXAMPLE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.GenerateQAFromTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ImageCaptioningFromGPT4VMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageCaptioningMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageDiffusionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.ImageFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.ImageTaggingMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.NlpaugEnMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.NlpcdaZhMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.OptimizeQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.OptimizeQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.OptimizeResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.PairPreferenceMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.PunctuationNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.PythonFileMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.PythonLambdaMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.RelationIdentityMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.RemoveBibliographyMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveCommentsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveHeaderMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveLongWordsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.RemoveNonChineseCharacterlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveRepeatSentencesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveSpecificCharsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveTableTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.RemoveWordsWithIncorrectSubstringsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.ReplaceContentMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.SentenceSplitMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.TextChunkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_text_chunks"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "recursively_chunk"]], "data_juicer.ops.mapper.VideoCaptioningFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromSummarizerMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoCaptioningFromVideoMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoExtractFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoRemoveWatermarkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoResizeAspectRatioMapper": [[11, 4, 1, "", "STRATEGY"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoResizeResolutionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoSplitByDurationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "split_videos_by_duration"]], "data_juicer.ops.mapper.VideoSplitByKeyFrameMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_split_key_frame"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.VideoSplitBySceneMapper": [[11, 2, 1, "", "__init__"], [11, 4, 1, "", "avaliable_detectors"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoTaggingFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.VideoTaggingFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.WhitespaceNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper": [[11, 1, 1, "", "AudioFFmpegWrappedMapper"]], "data_juicer.ops.mapper.audio_ffmpeg_wrapped_mapper.AudioFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.calibrate_qa_mapper": [[11, 1, 1, "", "CalibrateQAMapper"]], "data_juicer.ops.mapper.calibrate_qa_mapper.CalibrateQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_REFERENCE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.calibrate_query_mapper": [[11, 1, 1, "", "CalibrateQueryMapper"]], "data_juicer.ops.mapper.calibrate_query_mapper.CalibrateQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.calibrate_response_mapper": [[11, 1, 1, "", "CalibrateResponseMapper"]], "data_juicer.ops.mapper.calibrate_response_mapper.CalibrateResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.chinese_convert_mapper": [[11, 1, 1, "", "ChineseConvertMapper"], [11, 3, 1, "", "prepare_converter"]], "data_juicer.ops.mapper.chinese_convert_mapper.ChineseConvertMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_copyright_mapper": [[11, 1, 1, "", "CleanCopyrightMapper"]], "data_juicer.ops.mapper.clean_copyright_mapper.CleanCopyrightMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_email_mapper": [[11, 1, 1, "", "CleanEmailMapper"]], "data_juicer.ops.mapper.clean_email_mapper.CleanEmailMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_html_mapper": [[11, 1, 1, "", "CleanHtmlMapper"]], "data_juicer.ops.mapper.clean_html_mapper.CleanHtmlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_ip_mapper": [[11, 1, 1, "", "CleanIpMapper"]], "data_juicer.ops.mapper.clean_ip_mapper.CleanIpMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.clean_links_mapper": [[11, 1, 1, "", "CleanLinksMapper"]], "data_juicer.ops.mapper.clean_links_mapper.CleanLinksMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.expand_macro_mapper": [[11, 1, 1, "", "ExpandMacroMapper"]], "data_juicer.ops.mapper.expand_macro_mapper.ExpandMacroMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.extract_entity_attribute_mapper": [[11, 1, 1, "", "ExtractEntityAttributeMapper"]], "data_juicer.ops.mapper.extract_entity_attribute_mapper.ExtractEntityAttributeMapper": [[11, 4, 1, "", "DEFAULT_ATTR_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_DEMON_PATTERN"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_entity_relation_mapper": [[11, 1, 1, "", "ExtractEntityRelationMapper"]], "data_juicer.ops.mapper.extract_entity_relation_mapper.ExtractEntityRelationMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_CONTINUE_PROMPT"], [11, 4, 1, "", "DEFAULT_ENTITY_PATTERN"], [11, 4, 1, "", "DEFAULT_ENTITY_TYPES"], [11, 4, 1, "", "DEFAULT_IF_LOOP_PROMPT"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_RECORD_DELIMITER"], [11, 4, 1, "", "DEFAULT_RELATION_PATTERN"], [11, 4, 1, "", "DEFAULT_TUPLE_DELIMITER"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "add_message"], [11, 2, 1, "", "light_rag_extraction"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_event_mapper": [[11, 1, 1, "", "ExtractEventMapper"]], "data_juicer.ops.mapper.extract_event_mapper.ExtractEventMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.extract_keyword_mapper": [[11, 1, 1, "", "ExtractKeywordMapper"]], "data_juicer.ops.mapper.extract_keyword_mapper.ExtractKeywordMapper": [[11, 4, 1, "", "DEFAULT_COMPLETION_DELIMITER"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_nickname_mapper": [[11, 1, 1, "", "ExtractNicknameMapper"]], "data_juicer.ops.mapper.extract_nickname_mapper.ExtractNicknameMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.extract_support_text_mapper": [[11, 1, 1, "", "ExtractSupportTextMapper"]], "data_juicer.ops.mapper.extract_support_text_mapper.ExtractSupportTextMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.fix_unicode_mapper": [[11, 1, 1, "", "FixUnicodeMapper"]], "data_juicer.ops.mapper.fix_unicode_mapper.FixUnicodeMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper": [[11, 1, 1, "", "GenerateQAFromExamplesMapper"]], "data_juicer.ops.mapper.generate_qa_from_examples_mapper.GenerateQAFromExamplesMapper": [[11, 4, 1, "", "DEFAULT_EXAMPLE_TEMPLATE"], [11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.generate_qa_from_text_mapper": [[11, 1, 1, "", "GenerateQAFromTextMapper"]], "data_juicer.ops.mapper.generate_qa_from_text_mapper.GenerateQAFromTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_blur_mapper": [[11, 1, 1, "", "ImageBlurMapper"]], "data_juicer.ops.mapper.image_blur_mapper.ImageBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper": [[11, 1, 1, "", "ImageCaptioningFromGPT4VMapper"], [11, 3, 1, "", "call_gpt_vision_api"]], "data_juicer.ops.mapper.image_captioning_from_gpt4v_mapper.ImageCaptioningFromGPT4VMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_captioning_mapper": [[11, 1, 1, "", "ImageCaptioningMapper"]], "data_juicer.ops.mapper.image_captioning_mapper.ImageCaptioningMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_diffusion_mapper": [[11, 1, 1, "", "ImageDiffusionMapper"]], "data_juicer.ops.mapper.image_diffusion_mapper.ImageDiffusionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.image_face_blur_mapper": [[11, 1, 1, "", "ImageFaceBlurMapper"]], "data_juicer.ops.mapper.image_face_blur_mapper.ImageFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.image_tagging_mapper": [[11, 1, 1, "", "ImageTaggingMapper"]], "data_juicer.ops.mapper.image_tagging_mapper.ImageTaggingMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.nlpaug_en_mapper": [[11, 1, 1, "", "NlpaugEnMapper"]], "data_juicer.ops.mapper.nlpaug_en_mapper.NlpaugEnMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.nlpcda_zh_mapper": [[11, 1, 1, "", "NlpcdaZhMapper"]], "data_juicer.ops.mapper.nlpcda_zh_mapper.NlpcdaZhMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.optimize_qa_mapper": [[11, 1, 1, "", "OptimizeQAMapper"]], "data_juicer.ops.mapper.optimize_qa_mapper.OptimizeQAMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_QA_PAIR_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.optimize_query_mapper": [[11, 1, 1, "", "OptimizeQueryMapper"]], "data_juicer.ops.mapper.optimize_query_mapper.OptimizeQueryMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.optimize_response_mapper": [[11, 1, 1, "", "OptimizeResponseMapper"]], "data_juicer.ops.mapper.optimize_response_mapper.OptimizeResponseMapper": [[11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "parse_output"]], "data_juicer.ops.mapper.pair_preference_mapper": [[11, 1, 1, "", "PairPreferenceMapper"]], "data_juicer.ops.mapper.pair_preference_mapper.PairPreferenceMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "build_input"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.punctuation_normalization_mapper": [[11, 1, 1, "", "PunctuationNormalizationMapper"]], "data_juicer.ops.mapper.punctuation_normalization_mapper.PunctuationNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.python_file_mapper": [[11, 1, 1, "", "PythonFileMapper"]], "data_juicer.ops.mapper.python_file_mapper.PythonFileMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.python_lambda_mapper": [[11, 1, 1, "", "PythonLambdaMapper"]], "data_juicer.ops.mapper.python_lambda_mapper.PythonLambdaMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.relation_identity_mapper": [[11, 1, 1, "", "RelationIdentityMapper"]], "data_juicer.ops.mapper.relation_identity_mapper.RelationIdentityMapper": [[11, 4, 1, "", "DEFAULT_INPUT_TEMPLATE"], [11, 4, 1, "", "DEFAULT_OUTPUT_PATTERN_TEMPLATE"], [11, 4, 1, "", "DEFAULT_SYSTEM_PROMPT_TEMPLATE"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "parse_output"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.remove_bibliography_mapper": [[11, 1, 1, "", "RemoveBibliographyMapper"]], "data_juicer.ops.mapper.remove_bibliography_mapper.RemoveBibliographyMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_comments_mapper": [[11, 1, 1, "", "RemoveCommentsMapper"]], "data_juicer.ops.mapper.remove_comments_mapper.RemoveCommentsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_header_mapper": [[11, 1, 1, "", "RemoveHeaderMapper"]], "data_juicer.ops.mapper.remove_header_mapper.RemoveHeaderMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_long_words_mapper": [[11, 1, 1, "", "RemoveLongWordsMapper"]], "data_juicer.ops.mapper.remove_long_words_mapper.RemoveLongWordsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_long_word"]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper": [[11, 1, 1, "", "RemoveNonChineseCharacterlMapper"]], "data_juicer.ops.mapper.remove_non_chinese_character_mapper.RemoveNonChineseCharacterlMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper": [[11, 1, 1, "", "RemoveRepeatSentencesMapper"], [11, 3, 1, "", "split_sentence"]], "data_juicer.ops.mapper.remove_repeat_sentences_mapper.RemoveRepeatSentencesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_specific_chars_mapper": [[11, 1, 1, "", "RemoveSpecificCharsMapper"]], "data_juicer.ops.mapper.remove_specific_chars_mapper.RemoveSpecificCharsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_table_text_mapper": [[11, 1, 1, "", "RemoveTableTextMapper"]], "data_juicer.ops.mapper.remove_table_text_mapper.RemoveTableTextMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper": [[11, 1, 1, "", "RemoveWordsWithIncorrectSubstringsMapper"]], "data_juicer.ops.mapper.remove_words_with_incorrect_substrings_mapper.RemoveWordsWithIncorrectSubstringsMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "should_keep_word_with_incorrect_substrings"]], "data_juicer.ops.mapper.replace_content_mapper": [[11, 1, 1, "", "ReplaceContentMapper"]], "data_juicer.ops.mapper.replace_content_mapper.ReplaceContentMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.sentence_split_mapper": [[11, 1, 1, "", "SentenceSplitMapper"]], "data_juicer.ops.mapper.sentence_split_mapper.SentenceSplitMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.text_chunk_mapper": [[11, 1, 1, "", "TextChunkMapper"]], "data_juicer.ops.mapper.text_chunk_mapper.TextChunkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_text_chunks"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "recursively_chunk"]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper": [[11, 1, 1, "", "VideoCaptioningFromAudioMapper"]], "data_juicer.ops.mapper.video_captioning_from_audio_mapper.VideoCaptioningFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper": [[11, 1, 1, "", "VideoCaptioningFromFramesMapper"]], "data_juicer.ops.mapper.video_captioning_from_frames_mapper.VideoCaptioningFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper": [[11, 1, 1, "", "VideoCaptioningFromSummarizerMapper"]], "data_juicer.ops.mapper.video_captioning_from_summarizer_mapper.VideoCaptioningFromSummarizerMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_captioning_from_video_mapper": [[11, 1, 1, "", "VideoCaptioningFromVideoMapper"]], "data_juicer.ops.mapper.video_captioning_from_video_mapper.VideoCaptioningFromVideoMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_extract_frames_mapper": [[11, 1, 1, "", "VideoExtractFramesMapper"]], "data_juicer.ops.mapper.video_extract_frames_mapper.VideoExtractFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_face_blur_mapper": [[11, 1, 1, "", "VideoFaceBlurMapper"]], "data_juicer.ops.mapper.video_face_blur_mapper.VideoFaceBlurMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper": [[11, 1, 1, "", "VideoFFmpegWrappedMapper"]], "data_juicer.ops.mapper.video_ffmpeg_wrapped_mapper.VideoFFmpegWrappedMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_remove_watermark_mapper": [[11, 1, 1, "", "VideoRemoveWatermarkMapper"]], "data_juicer.ops.mapper.video_remove_watermark_mapper.VideoRemoveWatermarkMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper": [[11, 1, 1, "", "VideoResizeAspectRatioMapper"], [11, 3, 1, "", "rescale"]], "data_juicer.ops.mapper.video_resize_aspect_ratio_mapper.VideoResizeAspectRatioMapper": [[11, 4, 1, "", "STRATEGY"], [11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_resize_resolution_mapper": [[11, 1, 1, "", "VideoResizeResolutionMapper"]], "data_juicer.ops.mapper.video_resize_resolution_mapper.VideoResizeResolutionMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_split_by_duration_mapper": [[11, 1, 1, "", "VideoSplitByDurationMapper"], [11, 3, 1, "", "create_replacer"]], "data_juicer.ops.mapper.video_split_by_duration_mapper.VideoSplitByDurationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"], [11, 2, 1, "", "split_videos_by_duration"]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper": [[11, 1, 1, "", "VideoSplitByKeyFrameMapper"], [11, 3, 1, "", "create_replacer"]], "data_juicer.ops.mapper.video_split_by_key_frame_mapper.VideoSplitByKeyFrameMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "get_split_key_frame"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.mapper.video_split_by_scene_mapper": [[11, 1, 1, "", "VideoSplitBySceneMapper"], [11, 3, 1, "", "replace_func"]], "data_juicer.ops.mapper.video_split_by_scene_mapper.VideoSplitBySceneMapper": [[11, 2, 1, "", "__init__"], [11, 4, 1, "", "avaliable_detectors"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper": [[11, 1, 1, "", "VideoTaggingFromAudioMapper"]], "data_juicer.ops.mapper.video_tagging_from_audio_mapper.VideoTaggingFromAudioMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper": [[11, 1, 1, "", "VideoTaggingFromFramesMapper"]], "data_juicer.ops.mapper.video_tagging_from_frames_mapper.VideoTaggingFromFramesMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_single"]], "data_juicer.ops.mapper.whitespace_normalization_mapper": [[11, 1, 1, "", "WhitespaceNormalizationMapper"]], "data_juicer.ops.mapper.whitespace_normalization_mapper.WhitespaceNormalizationMapper": [[11, 2, 1, "", "__init__"], [11, 2, 1, "", "process_batched"]], "data_juicer.ops.op_fusion": [[5, 1, 1, "", "FusedFilter"], [5, 3, 1, "", "fuse_filter_group"], [5, 3, 1, "", "fuse_operators"]], "data_juicer.ops.op_fusion.FusedFilter": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "compute_stats_batched"], [5, 2, 1, "", "process_batched"]], "data_juicer.ops.selector": [[12, 1, 1, "", "FrequencySpecifiedFieldSelector"], [12, 1, 1, "", "RandomSelector"], [12, 1, 1, "", "RangeSpecifiedFieldSelector"], [12, 1, 1, "", "TopkSpecifiedFieldSelector"], [12, 0, 0, "-", "frequency_specified_field_selector"], [12, 0, 0, "-", "random_selector"], [12, 0, 0, "-", "range_specified_field_selector"], [12, 0, 0, "-", "topk_specified_field_selector"]], "data_juicer.ops.selector.FrequencySpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.RandomSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.RangeSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.TopkSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.frequency_specified_field_selector": [[12, 1, 1, "", "FrequencySpecifiedFieldSelector"]], "data_juicer.ops.selector.frequency_specified_field_selector.FrequencySpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.random_selector": [[12, 1, 1, "", "RandomSelector"]], "data_juicer.ops.selector.random_selector.RandomSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.range_specified_field_selector": [[12, 1, 1, "", "RangeSpecifiedFieldSelector"]], "data_juicer.ops.selector.range_specified_field_selector.RangeSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.ops.selector.topk_specified_field_selector": [[12, 1, 1, "", "TopkSpecifiedFieldSelector"]], "data_juicer.ops.selector.topk_specified_field_selector.TopkSpecifiedFieldSelector": [[12, 2, 1, "", "__init__"], [12, 2, 1, "", "process"]], "data_juicer.utils": [[14, 0, 0, "-", "asset_utils"], [14, 0, 0, "-", "auto_install_mapping"], [14, 0, 0, "-", "auto_install_utils"], [14, 0, 0, "-", "availability_utils"], [14, 0, 0, "-", "cache_utils"], [14, 0, 0, "-", "ckpt_utils"], [14, 0, 0, "-", "common_utils"], [14, 0, 0, "-", "compress"], [14, 0, 0, "-", "constant"], [14, 0, 0, "-", "file_utils"], [14, 0, 0, "-", "fingerprint_utils"], [14, 0, 0, "-", "lazy_loader"], [14, 0, 0, "-", "logger_utils"], [14, 0, 0, "-", "mm_utils"], [14, 0, 0, "-", "model_utils"], [14, 0, 0, "-", "process_utils"], [14, 0, 0, "-", "registry"], [14, 0, 0, "-", "resource_utils"], [14, 0, 0, "-", "unittest_utils"]], "data_juicer.utils.asset_utils": [[14, 3, 1, "", "load_words_asset"]], "data_juicer.utils.auto_install_utils": [[14, 1, 1, "", "AutoInstaller"]], "data_juicer.utils.auto_install_utils.AutoInstaller": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "check"], [14, 2, 1, "", "install"]], "data_juicer.utils.cache_utils": [[14, 1, 1, "", "DatasetCacheControl"], [14, 3, 1, "", "dataset_cache_control"]], "data_juicer.utils.cache_utils.DatasetCacheControl": [[14, 2, 1, "", "__init__"]], "data_juicer.utils.ckpt_utils": [[14, 1, 1, "", "CheckpointManager"]], "data_juicer.utils.ckpt_utils.CheckpointManager": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "check_ckpt"], [14, 2, 1, "", "check_ops_to_skip"], [14, 2, 1, "", "get_left_process_list"], [14, 2, 1, "", "load_ckpt"], [14, 2, 1, "", "record"], [14, 2, 1, "", "save_ckpt"]], "data_juicer.utils.common_utils": [[14, 3, 1, "", "avg_split_string_list_under_limit"], [14, 3, 1, "", "dict_to_hash"], [14, 3, 1, "", "is_float"], [14, 3, 1, "", "is_string_list"], [14, 3, 1, "", "nested_access"], [14, 3, 1, "", "nested_set"], [14, 3, 1, "", "stats_to_number"]], "data_juicer.utils.compress": [[14, 1, 1, "", "BaseCompressor"], [14, 1, 1, "", "CacheCompressManager"], [14, 1, 1, "", "CompressManager"], [14, 1, 1, "", "CompressionOff"], [14, 1, 1, "", "Compressor"], [14, 1, 1, "", "Extractor"], [14, 1, 1, "", "FileLock"], [14, 1, 1, "", "GzipCompressor"], [14, 1, 1, "", "Lz4Compressor"], [14, 1, 1, "", "ZstdCompressor"], [14, 3, 1, "", "cleanup_compressed_cache_files"], [14, 3, 1, "", "compress"], [14, 3, 1, "", "decompress"]], "data_juicer.utils.compress.BaseCompressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.compress.CacheCompressManager": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "cleanup_cache_files"], [14, 2, 1, "", "compress"], [14, 2, 1, "", "decompress"], [14, 2, 1, "", "format_cache_file_name"]], "data_juicer.utils.compress.CompressManager": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "compress"], [14, 2, 1, "", "decompress"]], "data_juicer.utils.compress.Compressor": [[14, 2, 1, "", "compress"], [14, 4, 1, "", "compressors"]], "data_juicer.utils.compress.Extractor": [[14, 2, 1, "", "extract"]], "data_juicer.utils.compress.GzipCompressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.compress.Lz4Compressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.compress.ZstdCompressor": [[14, 2, 1, "", "compress"]], "data_juicer.utils.constant": [[14, 1, 1, "", "Fields"], [14, 1, 1, "", "HashKeys"], [14, 1, 1, "", "InterVars"], [14, 1, 1, "", "JobRequiredKeys"], [14, 1, 1, "", "StatsKeys"], [14, 1, 1, "", "StatsKeysConstant"], [14, 1, 1, "", "StatsKeysMeta"]], "data_juicer.utils.constant.Fields": [[14, 4, 1, "", "attribute_descriptions"], [14, 4, 1, "", "attribute_support_texts"], [14, 4, 1, "", "attributes"], [14, 4, 1, "", "context"], [14, 4, 1, "", "entity"], [14, 4, 1, "", "entity_description"], [14, 4, 1, "", "entity_name"], [14, 4, 1, "", "entity_type"], [14, 4, 1, "", "event_description"], [14, 4, 1, "", "image_tags"], [14, 4, 1, "", "keyword"], [14, 4, 1, "", "main_entities"], [14, 4, 1, "", "meta"], [14, 4, 1, "", "multimodal_data_output_dir"], [14, 4, 1, "", "nickname"], [14, 4, 1, "", "relation"], [14, 4, 1, "", "relation_description"], [14, 4, 1, "", "relation_keywords"], [14, 4, 1, "", "relation_strength"], [14, 4, 1, "", "relevant_characters"], [14, 4, 1, "", "source_entity"], [14, 4, 1, "", "source_file"], [14, 4, 1, "", "stats"], [14, 4, 1, "", "suffix"], [14, 4, 1, "", "support_text"], [14, 4, 1, "", "target_entity"], [14, 4, 1, "", "video_audio_tags"], [14, 4, 1, "", "video_frame_tags"], [14, 4, 1, "", "video_frames"]], "data_juicer.utils.constant.HashKeys": [[14, 4, 1, "", "hash"], [14, 4, 1, "", "imagehash"], [14, 4, 1, "", "is_duplicate"], [14, 4, 1, "", "minhash"], [14, 4, 1, "", "simhash"], [14, 4, 1, "", "videohash"]], "data_juicer.utils.constant.InterVars": [[14, 4, 1, "", "lines"], [14, 4, 1, "", "loaded_audios"], [14, 4, 1, "", "loaded_images"], [14, 4, 1, "", "loaded_videos"], [14, 4, 1, "", "refined_words"], [14, 4, 1, "", "sampled_frames"], [14, 4, 1, "", "words"]], "data_juicer.utils.constant.JobRequiredKeys": [[14, 4, 1, "", "dj_configs"], [14, 4, 1, "", "extra_configs"], [14, 4, 1, "", "hook"], [14, 4, 1, "", "meta_name"]], "data_juicer.utils.constant.StatsKeysConstant": [[14, 4, 1, "", "alnum_ratio"], [14, 4, 1, "", "alpha_token_ratio"], [14, 4, 1, "", "aspect_ratios"], [14, 4, 1, "", "audio_duration"], [14, 4, 1, "", "audio_nmf_snr"], [14, 4, 1, "", "audio_sizes"], [14, 4, 1, "", "avg_line_length"], [14, 4, 1, "", "char_rep_ratio"], [14, 4, 1, "", "face_counts"], [14, 4, 1, "", "face_detections"], [14, 4, 1, "", "face_ratios"], [14, 4, 1, "", "flagged_words_ratio"], [14, 4, 1, "", "image_aesthetics_scores"], [14, 4, 1, "", "image_height"], [14, 4, 1, "", "image_nsfw_score"], [14, 4, 1, "", "image_pair_similarity"], [14, 4, 1, "", "image_sizes"], [14, 4, 1, "", "image_text_matching_score"], [14, 4, 1, "", "image_text_similarity"], [14, 4, 1, "", "image_watermark_prob"], [14, 4, 1, "", "image_width"], [14, 4, 1, "", "lang"], [14, 4, 1, "", "lang_score"], [14, 4, 1, "", "max_line_length"], [14, 4, 1, "", "num_action"], [14, 4, 1, "", "num_dependency_edges"], [14, 4, 1, "", "num_token"], [14, 4, 1, "", "num_words"], [14, 4, 1, "", "perplexity"], [14, 4, 1, "", "phrase_grounding_recall"], [14, 4, 1, "", "special_char_ratio"], [14, 4, 1, "", "stopwords_ratio"], [14, 4, 1, "", "text_len"], [14, 4, 1, "", "video_aesthetic_score"], [14, 4, 1, "", "video_aspect_ratios"], [14, 4, 1, "", "video_duration"], [14, 4, 1, "", "video_frames_aesthetics_score"], [14, 4, 1, "", "video_frames_text_similarity"], [14, 4, 1, "", "video_height"], [14, 4, 1, "", "video_motion_score"], [14, 4, 1, "", "video_nsfw_score"], [14, 4, 1, "", "video_ocr_area_ratio"], [14, 4, 1, "", "video_watermark_prob"], [14, 4, 1, "", "video_width"], [14, 4, 1, "", "word_rep_ratio"]], "data_juicer.utils.constant.StatsKeysMeta": [[14, 2, 1, "", "get_access_log"]], "data_juicer.utils.file_utils": [[14, 3, 1, "", "add_suffix_to_filename"], [14, 3, 1, "", "copy_data"], [14, 3, 1, "", "create_directory_if_not_exists"], [14, 3, 1, "", "find_files_with_suffix"], [14, 3, 1, "", "follow_read"], [14, 3, 1, "", "is_absolute_path"], [14, 3, 1, "", "transfer_filename"]], "data_juicer.utils.fingerprint_utils": [[14, 1, 1, "", "Hasher"], [14, 3, 1, "", "generate_fingerprint"], [14, 3, 1, "", "update_fingerprint"]], "data_juicer.utils.fingerprint_utils.Hasher": [[14, 2, 1, "", "__init__"], [14, 4, 1, "", "dispatch"], [14, 2, 1, "", "hash"], [14, 2, 1, "", "hash_bytes"], [14, 2, 1, "", "hash_default"], [14, 2, 1, "", "hexdigest"], [14, 2, 1, "", "update"]], "data_juicer.utils.lazy_loader": [[14, 1, 1, "", "LazyLoader"]], "data_juicer.utils.lazy_loader.LazyLoader": [[14, 2, 1, "", "__init__"]], "data_juicer.utils.logger_utils": [[14, 1, 1, "", "HiddenPrints"], [14, 1, 1, "", "StreamToLoguru"], [14, 3, 1, "", "get_caller_name"], [14, 3, 1, "", "get_log_file_path"], [14, 3, 1, "", "redirect_sys_output"], [14, 3, 1, "", "setup_logger"]], "data_juicer.utils.logger_utils.StreamToLoguru": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "flush"], [14, 2, 1, "", "getvalue"], [14, 2, 1, "", "write"]], "data_juicer.utils.mm_utils": [[14, 6, 1, "", "AV_STREAM_THREAD_TYPE"], [14, 1, 1, "", "SpecialTokens"], [14, 3, 1, "", "calculate_resized_dimensions"], [14, 3, 1, "", "close_video"], [14, 3, 1, "", "cut_video_by_seconds"], [14, 3, 1, "", "detect_faces"], [14, 3, 1, "", "extract_audio_from_video"], [14, 3, 1, "", "extract_key_frames"], [14, 3, 1, "", "extract_key_frames_by_seconds"], [14, 3, 1, "", "extract_video_frames_uniformly"], [14, 3, 1, "", "extract_video_frames_uniformly_by_seconds"], [14, 3, 1, "", "get_decoded_frames_from_video"], [14, 3, 1, "", "get_file_size"], [14, 3, 1, "", "get_key_frame_seconds"], [14, 3, 1, "", "get_special_tokens"], [14, 3, 1, "", "get_video_duration"], [14, 3, 1, "", "image_byte_to_base64"], [14, 3, 1, "", "image_path_to_base64"], [14, 3, 1, "", "insert_texts_after_placeholders"], [14, 3, 1, "", "iou"], [14, 3, 1, "", "load_audio"], [14, 3, 1, "", "load_audios"], [14, 3, 1, "", "load_data_with_context"], [14, 3, 1, "", "load_image"], [14, 3, 1, "", "load_image_byte"], [14, 3, 1, "", "load_images"], [14, 3, 1, "", "load_images_byte"], [14, 3, 1, "", "load_video"], [14, 3, 1, "", "load_videos"], [14, 3, 1, "", "parse_string_to_roi"], [14, 3, 1, "", "pil_to_opencv"], [14, 3, 1, "", "process_each_frame"], [14, 3, 1, "", "remove_non_special_tokens"], [14, 3, 1, "", "remove_special_tokens"], [14, 3, 1, "", "size_to_bytes"], [14, 3, 1, "", "timecode_string_to_seconds"]], "data_juicer.utils.mm_utils.SpecialTokens": [[14, 4, 1, "", "audio"], [14, 4, 1, "", "eoc"], [14, 4, 1, "", "image"], [14, 4, 1, "", "video"]], "data_juicer.utils.model_utils": [[14, 1, 1, "", "APIModel"], [14, 3, 1, "", "check_model"], [14, 3, 1, "", "free_models"], [14, 3, 1, "", "get_backup_model_link"], [14, 3, 1, "", "get_model"], [14, 3, 1, "", "prepare_api_model"], [14, 3, 1, "", "prepare_diffusion_model"], [14, 3, 1, "", "prepare_fasttext_model"], [14, 3, 1, "", "prepare_huggingface_model"], [14, 3, 1, "", "prepare_kenlm_model"], [14, 3, 1, "", "prepare_model"], [14, 3, 1, "", "prepare_nltk_model"], [14, 3, 1, "", "prepare_opencv_classifier"], [14, 3, 1, "", "prepare_recognizeAnything_model"], [14, 3, 1, "", "prepare_sentencepiece_for_lang"], [14, 3, 1, "", "prepare_sentencepiece_model"], [14, 3, 1, "", "prepare_simple_aesthetics_model"], [14, 3, 1, "", "prepare_spacy_model"], [14, 3, 1, "", "prepare_video_blip_model"], [14, 3, 1, "", "prepare_vllm_model"]], "data_juicer.utils.model_utils.APIModel": [[14, 2, 1, "", "__init__"]], "data_juicer.utils.process_utils": [[14, 3, 1, "", "calculate_np"], [14, 3, 1, "", "get_min_cuda_memory"], [14, 3, 1, "", "setup_mp"]], "data_juicer.utils.registry": [[14, 1, 1, "", "Registry"]], "data_juicer.utils.registry.Registry": [[14, 2, 1, "", "__init__"], [14, 2, 1, "", "get"], [14, 2, 1, "", "list"], [14, 5, 1, "", "modules"], [14, 5, 1, "", "name"], [14, 2, 1, "", "register_module"]], "data_juicer.utils.resource_utils": [[14, 3, 1, "", "get_cpu_count"], [14, 3, 1, "", "get_cpu_utilization"], [14, 3, 1, "", "query_cuda_info"], [14, 3, 1, "", "query_mem_info"]], "data_juicer.utils.unittest_utils": [[14, 1, 1, "", "DataJuicerTestCaseBase"], [14, 3, 1, "", "TEST_TAG"], [14, 3, 1, "", "set_clear_model_flag"]], "data_juicer.utils.unittest_utils.DataJuicerTestCaseBase": [[14, 2, 1, "", "assertDatasetEqual"], [14, 2, 1, "", "generate_dataset"], [14, 2, 1, "", "run_single_op"], [14, 2, 1, "", "setUpClass"], [14, 2, 1, "", "tearDown"], [14, 2, 1, "", "tearDownClass"]]}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "function", "Python function"], "4": ["py", "attribute", "Python attribute"], "5": ["py", "property", "Python property"], "6": ["py", "data", "Python data"]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:function", "4": "py:attribute", "5": "py:property", "6": "py:data"}, "terms": {"": [1, 3, 4, 6, 8, 9, 11, 14], "0": [3, 4, 5, 6, 8, 9, 11, 12, 14], "003": 9, "045": 9, "05": 3, "0b5": 11, "0x20": 11, "1": [1, 3, 4, 5, 8, 9, 11, 12, 14], "10": [3, 9, 11], "100": 6, "10000": 3, "100\u5b57": 6, "1024": 3, "1048576": 3, "1073741824": 3, "1099511627776": 3, "10ve": 11, "12039": 9, "15": 11, "1500": 9, "176": 14, "1_text_length_filt": 3, "1b8": 11, "1tb": 9, "2": [1, 3, 7, 9, 11, 14], "20": [1, 11], "2003": 9, "21": [9, 11], "24": 15, "25": 9, "256": 8, "27": 11, "27s_t": 1, "2nb": 11, "3": [6, 9, 11, 14], "308": 9, "333": 9, "384": 14, "4": [1, 8, 9, 11, 14], "42": 4, "420": 14, "4593": 11, "4b": 11, "4o": [6, 11], "5": [3, 8, 9, 11], "500": [9, 11], "6": [8, 9, 11], "6380": 8, "7": [8, 11, 14], "72b": 11, "7976931348623157e": 9, "7b": 11, "8": [3, 9, 11], "8b": 11, "9": [3, 6, 9, 11], "9223372036854775807": [9, 11], "95": [6, 9, 11], "9b": 9, "A": [3, 5, 8, 11, 14], "And": [8, 11], "As": 9, "By": [9, 11, 14], "For": [1, 3, 5, 6, 8, 9, 11], "If": [1, 3, 8, 9, 11, 14], "In": [1, 3], "It": [3, 4, 6, 8, 9, 10, 11, 14], "NO": 11, "One": [11, 14], "The": [3, 4, 5, 6, 8, 9, 11, 12, 14], "There": 14, "These": 11, "To": 11, "__dj__attribute__": 11, "__dj__attribute_description__": 11, "__dj__attribute_descriptions__": [11, 14], "__dj__attribute_support_texts__": [11, 14], "__dj__attributes__": [11, 14], "__dj__audio": 14, "__dj__context__": 14, "__dj__entity__": [11, 14], "__dj__entity_entity_description__": 14, "__dj__entity_name__": 14, "__dj__entity_type__": 14, "__dj__eoc": 14, "__dj__event_description__": [11, 14], "__dj__hash": 14, "__dj__imag": 14, "__dj__image_tags__": [11, 14], "__dj__imagehash": 14, "__dj__is_dupl": 14, "__dj__keyword__": [11, 14], "__dj__line": 14, "__dj__loaded_audio": 14, "__dj__loaded_imag": 14, "__dj__loaded_video": 14, "__dj__main_entities__": [11, 14], "__dj__meta__": 14, "__dj__minhash": 14, "__dj__nickname__": [11, 14], "__dj__produced_data__": 14, "__dj__refined_word": 14, "__dj__relation__": [11, 14], "__dj__relation_description__": 14, "__dj__relation_keywords__": 14, "__dj__relation_source_entity__": 14, "__dj__relation_strength__": 14, "__dj__relation_target_entity__": 14, "__dj__relevant_characters__": [11, 14], "__dj__sampled_fram": 14, "__dj__simhash": 14, "__dj__source_file__": 14, "__dj__stats__": [6, 10, 11, 14], "__dj__suffix__": 14, "__dj__support_text__": [11, 14], "__dj__video": 14, "__dj__video_audio_tags__": [11, 14], "__dj__video_frame_tags__": [9, 11, 14], "__dj__video_frames__": [11, 14], "__dj__videohash": 14, "__dj__word": 14, "__init__": [0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "__path__": 2, "_core_web_md": 14, "_process": 14, "_resiz": 14, "_result_class": 1, "_suf": 14, "_whoop": 14, "ab": 9, "abc": [3, 14], "abc__dj_hash_": 14, "abc_res": 14, "abil": 11, "about": 11, "abov": [3, 11], "absolut": [3, 14], "abstract": [3, 14], "abstractfilesystem": 3, "acceler": 11, "accept": [11, 14], "access": [3, 14], "accord": [3, 4, 5, 9, 10, 11, 14], "account": 9, "acknowledg": 11, "act": 11, "action": [9, 11], "activ": 11, "actual": 3, "ad": [3, 7, 11, 14], "adapt": [0, 15, 16], "adapt_workload": [0, 3], "adaptivedetector": 11, "add": [3, 4, 5, 11, 14], "add_column": [0, 3], "add_final_scen": 11, "add_messag": [5, 11], "add_paramet": [0, 5], "add_same_content_to_new_column": [0, 3], "add_suffix": [0, 4], "add_suffix_to_filenam": [0, 14], "addit": [9, 11, 14], "address": 11, "adjust": 11, "adopt": 9, "advanc": 3, "aesthet": [9, 14], "affect": 11, "after": [1, 2, 3, 4, 7, 8, 9, 11, 14], "again": 14, "against": 11, "aggreg": [0, 5], "ai": [9, 11], "akin": 11, "alert": 11, "alex": 11, "algorith": 9, "algorithm": [3, 8, 11, 14], "alibaba": 11, "all": [1, 3, 7, 9, 10, 11, 14], "all_keyfram": [9, 11], "allow": [9, 11, 14], "almost": 11, "alnum_ratio": [0, 14], "along": 14, "alpha_token_ratio": [0, 14], "alphabet": [8, 9, 11], "alphanumer": 9, "alphanumeric_filt": [0, 5, 15], "alphanumericfilt": [5, 9, 14], "also": 7, "although": 8, "alwai": [8, 14], "among": 11, "amount": 11, "amrul": 9, "an": [1, 2, 3, 4, 5, 6, 8, 9, 11, 14], "analysi": [0, 3, 15, 16], "analyz": [0, 1, 2, 15, 16], "analyze_resource_util_list": [0, 3], "analyze_single_resource_util": [0, 3], "analyze_small_batch": [0, 3], "ani": [3, 7, 9, 11, 14], "annot": [3, 6, 8, 9, 11, 12, 14], "anoth": [11, 14], "answer": 11, "anticip": 11, "anxieti": 11, "any_or_al": [9, 11], "anyth": 9, "apex": 14, "api": [3, 6, 11, 14], "api_endpoint": [6, 11], "api_kei": 11, "api_model": [6, 11], "apimodel": [0, 14], "appear": 11, "append": 14, "appli": [1, 3, 8, 11, 12], "appropri": 4, "approxim": 9, "ar": [1, 2, 3, 7, 8, 9, 11, 12, 14], "area": 9, "arg": [1, 2, 3, 4, 5, 8, 9, 10, 11, 12, 14], "argument": [1, 3, 5, 6, 9, 11, 14], "arpa": 14, "arrai": 1, "arrow_json_arg": 3, "arrow_open_stream_arg": 3, "arxiv": 9, "asm": 4, "aspect": [9, 11], "aspect_ratio": [0, 14], "aspectratio": [9, 11], "assertdatasetequ": [0, 14], "asset": [9, 14], "asset_link": 14, "asset_util": [0, 16], "assist": 11, "associ": 11, "ast": 11, "async": 14, "asyncgener": 14, "attempt": [6, 11], "attitud": 11, "attr_dict": 2, "attr_pattern_templ": 11, "attribut": [0, 6, 11, 14], "attribute_desc_kei": 11, "attribute_descript": [0, 14], "attribute_kei": 11, "attribute_nam": 11, "attribute_summari": [5, 6], "attribute_support_text": [0, 14], "audio": [0, 5, 9, 11, 14], "audio_data": 9, "audio_dur": [0, 14], "audio_duration_filt": [0, 5, 15], "audio_ffmpeg_wrapped_mapp": [0, 5, 15], "audio_kei": 5, "audio_nmf_snr": [0, 14], "audio_nmf_snr_filt": [0, 5, 15], "audio_s": [0, 14], "audio_size_filt": [0, 5, 15], "audiodurationfilt": [5, 9], "audioffmpegwrappedmapp": [5, 11], "audionmfsnrfilt": [5, 9], "audioset": 11, "audiosizefilt": [5, 9], "aug_num": 11, "augment": [3, 7, 9, 11], "authent": 11, "authoritarian": 11, "auto": 14, "auto_instal": 14, "auto_install_map": [0, 16], "auto_install_util": [0, 16], "autoinstal": [0, 14], "automat": 14, "autonomi": 11, "av": 14, "av_stream_thread_typ": [0, 14], "ava1": 9, "avail": [3, 9, 14], "availability_util": [0, 16], "avaliable_detector": [5, 11], "averag": [3, 9], "average_line_length_filt": [0, 5, 15], "averagelinelengthfilt": [5, 9], "avg": [3, 9], "avg_line_length": [0, 14], "avg_split_string_list_under_limit": [0, 14], "avoid": [3, 8, 14], "aw": 11, "ax": 1, "axi": 1, "b": [8, 11], "back": 11, "backdrop": 11, "backend": 3, "baichuan2": 11, "balanc": 3, "band": 8, "bare": 11, "base": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "base64_imag": 11, "base_b": 3, "base_dir": 3, "base_op": [0, 15, 16], "base_url": 14, "basecompressor": [0, 14], "baseformatt": [0, 4], "bash": 4, "basic": 8, "bat": 4, "batch": [3, 5, 6, 10, 11], "batch_siz": 5, "batch_size_strategi": [0, 3], "batched_op": 11, "batchmapp": 3, "bbox": 9, "been": [11, 14], "befor": [3, 5, 9, 14], "begin": [5, 11, 14], "being": [9, 11], "below": [9, 11], "besid": 11, "best": 1, "better": [3, 9], "between": [7, 8, 9, 11, 14], "bf16": 11, "bibliographi": 11, "bigger": [4, 11], "bin": [1, 14], "bit": 14, "blip": [9, 11], "blip2": 11, "blob": 9, "block": [8, 14], "block_siz": 11, "blur": 11, "blur_typ": 11, "blure": 11, "bode": 11, "bodi": 11, "bool": [2, 3, 8, 9, 11, 12, 14], "boolean": [5, 8, 9, 11, 14], "both": [11, 12, 14], "bottom": [9, 11, 14], "bound": 12, "box": [1, 11], "box1": 14, "box2": 14, "branch": 11, "bring": 11, "brought": 11, "bucket": 3, "buf": 14, "build": 11, "build_input": [5, 11], "buzz": 11, "byte": [8, 9, 14], "c": 4, "cach": [2, 3, 9, 14], "cache_file_nam": 14, "cache_util": [0, 16], "cachecompressmanag": [0, 14], "calcul": [8, 9, 11, 14], "calculate_hash": [5, 8], "calculate_np": [0, 14], "calculate_resized_dimens": [0, 14], "calibr": 11, "calibrate_qa_mapp": [0, 5, 15], "calibrate_query_mapp": [0, 5, 15], "calibrate_response_mapp": [0, 5, 15], "calibrateqamapp": [5, 11], "calibratequerymapp": [5, 11], "calibrateresponsemapp": [5, 11], "call": [3, 5, 6, 11, 14], "call_gpt_vision_api": [5, 11], "callabl": 14, "caller": 14, "caller_nam": 14, "can": [3, 9, 11, 14], "candid": 11, "capabl": 11, "caption": [9, 11], "caption_kei": 11, "caption_num": 11, "captur": 11, "capture_stderr": 11, "case": [7, 8, 9, 11, 14, 15], "cast": 11, "catch_map_batches_except": [0, 5], "catch_map_single_except": [0, 5], "categor": 1, "categori": 1, "category_to_hist": [0, 1], "cc": 4, "central": 11, "certainti": 11, "cfg": [2, 3, 4], "cfg_after_merg": 2, "ch_sim": 9, "challeng": 11, "chang": [3, 11, 14], "char": [7, 9, 11], "char_rep_ratio": [0, 14], "charact": [7, 8, 9, 11], "character_repetition_filt": [0, 5, 15], "characterrepetitionfilt": [5, 9], "chars_to_remov": 11, "chat": 14, "chatml": 11, "check": [0, 2, 3, 4, 11, 14], "check_ckpt": [0, 14], "check_model": [0, 14], "check_ops_to_skip": [0, 14], "check_pkg": 14, "checkpoint": [2, 3, 14], "checkpointmanag": [0, 14], "chines": [7, 8, 9, 11], "chinese_convert_mapp": [0, 5, 15], "chineseclip": 9, "chineseconvertmapp": [5, 11], "choic": [6, 9, 11, 14], "choos": 11, "chunk": [9, 11], "ckpt_dir": 14, "ckpt_util": [0, 16], "clash": 11, "class": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "classifi": [9, 11], "classmethod": [3, 4, 14], "clean": [11, 14], "clean_copyright_mapp": [0, 5, 15], "clean_email_mapp": [0, 5, 15], "clean_html_mapp": [0, 5, 15], "clean_ip_mapp": [0, 5, 15], "clean_links_mapp": [0, 5, 15], "cleancopyrightmapp": [5, 11], "cleanemailmapp": [5, 11], "cleanhtmlmapp": [5, 11], "cleanipmapp": [5, 11], "cleanlinksmapp": [5, 11], "cleanup_cache_fil": [0, 3, 14], "cleanup_compressed_cache_fil": [0, 14], "clear": 3, "clearli": 11, "clench": 11, "client": 14, "clip": [9, 11, 14], "close": [6, 11, 14], "close_video": [0, 14], "closedunitinterv": 9, "closest": 1, "cluster": 3, "cmake": 4, "cmd": 4, "coco": 9, "code": [2, 11], "col": 1, "collect": [0, 1, 11], "collector": [0, 15, 16], "column": [1, 3, 11], "column_nam": [1, 14], "column_wise_analysi": [0, 15, 16], "columnwiseanalysi": [0, 1, 3], "com": 9, "combin": [11, 14], "command": [2, 4, 11], "comment": 11, "commit": 11, "common": [0, 3, 5, 15], "common_util": [0, 16], "commun": 11, "compar": [3, 14], "comparison": 3, "compat": 14, "competit": 11, "complet": [11, 14], "completion_delimit": 11, "comprehens": 11, "compress": [0, 3, 16], "compressionoff": [0, 14], "compressmanag": [0, 14], "compressor": [0, 14], "compressor_format": 14, "compresss": 14, "comput": [0, 1, 3, 5, 7, 8, 9, 14], "compute_flow": [5, 9], "compute_hash": [0, 5, 8], "compute_nmf_snr": [5, 9], "compute_stat": 14, "compute_stats_batch": [0, 5, 9], "compute_stats_singl": [0, 5, 8, 9], "compvi": 11, "concat": 2, "concaten": [7, 11], "concentr": 11, "concept": 11, "conclus": 6, "concurr": 3, "condit": [9, 11], "conduct": [3, 4, 5], "conf_thr": 9, "confid": 9, "config": [0, 3, 5, 11, 14, 15, 16], "config_backup": [0, 2], "configur": [2, 3, 4, 11, 14], "conflict": 11, "conifg": 2, "consequ": 4, "consid": [1, 3, 6, 8, 9, 11], "consider_text": 8, "consider_video_caption_from_audio": 11, "consider_video_caption_from_fram": 11, "consider_video_caption_from_video": 11, "consider_video_tags_from_audio": 11, "consider_video_tags_from_fram": 11, "consist": 3, "constant": [0, 16], "constraint": [9, 14], "construct": [3, 11], "constructor": 3, "contact": 11, "contain": [4, 7, 9, 11, 14], "content": [15, 16], "content_keyword": 11, "contentdetector": 11, "context": [0, 5, 8, 9, 11, 14], "contigu": 11, "continu": [1, 11], "continue_prompt": 11, "contrast": 11, "contrib": 14, "control": [11, 14], "conveni": 5, "convers": 11, "convert": [7, 8, 11, 14], "convert_arrow_to_python": [0, 5], "convert_dict_list_to_list_dict": [0, 5], "convert_list_dict_to_dict_list": [0, 5], "convert_to_absolute_path": [0, 3], "coodin": 11, "coordin": [9, 11, 14], "copi": [3, 14], "copy_data": [0, 14], "copyright": 11, "core": [0, 15, 16], "corner": [11, 14], "correspod": 14, "correspond": [5, 9, 11, 12, 14], "cosmic": 11, "could": [1, 11], "count": [1, 3, 9], "cpp": 4, "cpu": 3, "cpu_requir": 14, "creat": [2, 4, 14], "create_directory_if_not_exist": [0, 14], "create_replac": [5, 11], "cross": 1, "cross_entropi": 1, "crossentropymeasur": [0, 1], "cruz": 11, "css": 4, "csv": [4, 14], "csv_formatt": [0, 15, 16], "csvformatt": [0, 4], "cuda_device_count": [0, 16], "curr_fram": 9, "current": [3, 14], "current_st": 3, "custom": [3, 11, 14], "cut": [11, 14], "cut_video_by_second": [0, 14], "cv_classifi": [9, 11], "d": [3, 4, 11, 14], "dashscop": 11, "data": [0, 1, 4, 5, 8, 9, 11, 14, 16], "data_juic": 15, "data_juicer_models_cach": 14, "data_path": [1, 14], "datajuc": 2, "datajuicertestcasebas": [0, 14], "datas": 4, "dataset": [1, 3, 4, 5, 8, 9, 10, 11, 12, 14], "dataset_cache_control": [0, 14], "dataset_dir": 3, "dataset_path": [3, 4], "dataset_to_sampl": 3, "datasetcachecontrol": [0, 14], "datasetdict": [3, 4], "datasketch": 8, "datasourc": 3, "datasset": 4, "date": 3, "db": 9, "decid": [3, 5, 8, 9, 14], "decod": 14, "decompress": [0, 14], "deconstruct": 14, "decor": 14, "decreas": 11, "dedup": 9, "dedupl": [0, 3, 5, 11, 15], "deep": 11, "default": [1, 2, 3, 4, 6, 8, 9, 10, 11, 14], "default_attr_pattern_templ": [5, 11], "default_completion_delimit": [5, 11], "default_continue_prompt": [5, 11], "default_demon_pattern": [5, 11], "default_entity_pattern": [5, 11], "default_entity_typ": [5, 11], "default_example_prompt": [5, 6], "default_example_templ": [5, 11], "default_if_loop_prompt": [5, 11], "default_input_templ": [5, 6, 11], "default_output_pattern": [5, 6, 11], "default_output_pattern_templ": [5, 6, 11], "default_prompt_templ": [5, 11], "default_qa_pair_templ": [5, 11], "default_record_delimit": [5, 11], "default_reference_templ": [5, 11], "default_relation_pattern": [5, 11], "default_sub_doc_templ": [5, 6], "default_system_prompt": [5, 6, 11], "default_system_prompt_templ": [5, 11], "default_system_templ": [5, 6], "default_tuple_delimit": [5, 11], "defaut": 2, "defin": [11, 14], "definit": [5, 11], "delet": 11, "delete_random_char": 11, "delete_random_word": 11, "delimit": [4, 11], "delimiter_in_insert_po": 14, "demo_pattern": 11, "demonstract": 11, "denois": 11, "denot": 11, "dens": 9, "depend": [3, 8, 9, 11, 14], "depth": 14, "descend": [6, 12], "describ": 1, "descript": 11, "design": 11, "desir": 14, "detail": [3, 9, 11, 15], "detect": [3, 8, 9, 11], "detect_fac": [0, 14], "detection_method": 11, "detector": [11, 14], "determin": [8, 11, 12], "devic": [11, 14], "diagon": 9, "dialogu": 11, "dict": [2, 3, 5, 6, 11, 14], "dict_to_hash": [0, 14], "dictionari": [11, 14], "did": 11, "differ": [3, 4, 7, 8, 9, 11], "diffus": [11, 14], "diffusion_typ": 14, "digit": [8, 14], "digit_allow": 14, "dill": 14, "dimens": [9, 11, 14], "dir": 4, "directli": [8, 11], "directori": [2, 3, 4, 9, 11, 14], "directory_path": 14, "disabl": 11, "discard": 11, "discoveri": 11, "discret": 1, "disk": [1, 3], "dismiss": 11, "dispatch": [0, 14], "displai": 1, "display_config": [0, 2], "distanc": 8, "distribut": [1, 3, 11], "distributed_rank": 14, "diverg": 1, "divers": [1, 11], "diversity_analysi": [0, 15, 16], "diversityanalysi": [0, 1], "divis": [9, 11, 14], "dj": 3, "dj_cfg": 14, "dj_config": [0, 14], "djdataset": [0, 3, 14], "do": 2, "doc": [1, 5, 6, 8], "doc2qa": 11, "doc_typ": 11, "dockerfil": 4, "document": [6, 7, 8, 9, 11], "document_dedupl": [0, 5, 15], "document_minhash_dedupl": [0, 5, 15], "document_simhash_dedupl": [0, 5, 15], "documentdedupl": [5, 8], "documentminhashdedupl": [5, 8], "documentsimhashdedupl": [5, 8], "docx": [4, 9], "doe": 14, "dot": 14, "doubl": 11, "download": 14, "draw": [0, 15, 16], "draw_box": [0, 1], "draw_heatmap": [0, 1], "draw_hist": [0, 1], "draw_resource_util_graph": [0, 3], "draw_wordcloud": [0, 1], "drop": 11, "drop_no_head": 11, "drop_text": 11, "ds_dir": 4, "ds_file": 4, "due": 3, "dull": 11, "dump": 14, "dup_pair": 3, "duplic": [3, 5, 8], "durat": [9, 11, 14], "dure": 3, "dynam": 11, "dynamic_field": [0, 3], "e": [2, 3, 4, 6, 9, 11, 14], "e501": [1, 9], "each": [1, 2, 3, 5, 6, 8, 11, 14], "earlier": 11, "easi": 14, "easyocr": 9, "edf": 14, "edg": [9, 11, 14], "edit": 5, "effect": 3, "effici": 3, "ego4d": 11, "either": 11, "element": [7, 14], "eleutherai": 9, "els": 14, "email": 11, "embed": 3, "emoji": 7, "empti": [4, 8, 11], "empty_formatt": [0, 15, 16], "empty_hash_valu": [5, 8], "empty_histori": [0, 5], "emptyformatt": [0, 4, 11], "en": [1, 7, 9, 11, 14], "enabl": [3, 11], "enable_vllm": 11, "encod": 14, "encourag": 11, "encrypt": 11, "end": [11, 14], "end_second": 14, "endpoint": [6, 11, 14], "energi": 11, "enforc": 11, "english": [8, 9, 11], "enhanc": 3, "enlarg": 11, "ensu": 11, "ensur": 11, "entir": 11, "entiti": [0, 6, 9, 11, 14], "entity1": 11, "entity2": 11, "entity_attribute_aggreg": [0, 5], "entity_attribute_kei": 11, "entity_descript": [0, 11, 14], "entity_kei": 11, "entity_nam": [0, 11, 14], "entity_pattern": 11, "entity_typ": [0, 6, 11, 14], "entityattributeaggreg": [5, 6], "entri": 2, "entropi": 1, "entropymeasur": [0, 1], "enum": 14, "enumer": 14, "environ": [2, 3, 14], "eoc": [0, 14], "equal": [9, 11, 12], "equival": 11, "error": [6, 11], "especi": [7, 9], "essenti": 11, "estim": 3, "etc": [1, 3, 4, 14], "even": 11, "evenli": 9, "event": 11, "event_desc_kei": 11, "event_descript": [0, 14], "everi": [4, 11], "exact": [3, 8], "exampl": [3, 6, 9, 11, 14], "example_num": 11, "example_prompt": 6, "example_templ": 11, "exce": [3, 9, 11], "except": [3, 11], "exclud": 2, "execut": [3, 11], "execute_and_prob": [0, 3], "executor": [0, 2, 14, 15, 16], "exist": [2, 14], "expand": 11, "expand_macro_mapp": [0, 5, 15], "expandmacromapp": [5, 11], "expect": [2, 3, 5, 11], "expens": 11, "experi": 11, "explan": 11, "explicitli": 3, "explor": 11, "export": [0, 1, 4, 5, 15, 16], "export_compute_stat": [0, 3], "export_config": [0, 2], "export_d": 3, "export_in_parallel": 3, "export_path": 3, "export_shard_s": 3, "export_stat": 3, "express": 11, "extens": 14, "extent": 11, "extra": [1, 2, 3, 4, 6, 8, 9, 10, 11, 12], "extra_config": [0, 14], "extra_kwarg": 14, "extra_param_dict": 5, "extract": [0, 3, 4, 6, 9, 11, 14], "extract_audio_from_video": [0, 14], "extract_entity_attribute_mapp": [0, 5, 15], "extract_entity_relation_mapp": [0, 5, 15], "extract_event_mapp": [0, 5, 15], "extract_key_fram": [0, 14], "extract_key_frames_by_second": [0, 14], "extract_keyword_mapp": [0, 5, 15], "extract_nickname_mapp": [0, 5, 15], "extract_support_text_mapp": [0, 5, 15], "extract_txt_from_docx": [0, 4], "extract_txt_from_pdf": [0, 4], "extract_video_frames_uniformli": [0, 14], "extract_video_frames_uniformly_by_second": [0, 14], "extractentityattributemapp": [5, 11], "extractentityrelationmapp": [5, 11], "extracteventmapp": [5, 11], "extractkeywordmapp": [5, 11], "extractnicknamemapp": [5, 11], "extractor": [0, 14], "extractor_format": 14, "extractsupporttextmapp": [5, 11], "ey": 11, "f": [3, 4], "f03": 4, "f08": 4, "f77": 4, "f90": 4, "f95": 4, "face": [9, 11, 14], "face_count": [0, 14], "face_detect": [0, 14], "face_ratio": [0, 14], "factor": [1, 3], "fade_bia": 11, "failur": [11, 14], "falconsai": 9, "fals": [1, 2, 3, 4, 5, 7, 8, 9, 11, 14], "false_negative_weight": 8, "false_positive_weight": 8, "falter": 11, "farneback": 9, "faster": [7, 14], "fasttext": 14, "fault": 5, "featur": [1, 4], "feature_kei": [4, 11], "fff": 14, "ffmpeg": [11, 14], "field": [0, 1, 3, 4, 5, 6, 8, 9, 11, 12, 14], "field_kei": [9, 12], "field_nam": 3, "fieldinfo": [8, 11, 12], "figsiz": 1, "figur": [1, 3, 11], "file": [1, 2, 3, 4, 5, 9, 11, 14], "file_based_datasource_kwarg": 3, "file_extens": 3, "file_path": 11, "file_suf": 14, "file_util": [0, 16], "filelock": [0, 14], "filenam": 14, "filesystem": 3, "filter": [0, 3, 4, 5, 8, 11, 15], "filter_batch": [0, 3], "filter_func": 3, "filter_kwarg": 11, "filter_nam": 11, "final": [8, 11], "find": [1, 3, 5, 7, 14], "find_files_with_suffix": [0, 14], "find_noun_phras": [5, 9], "find_root_verb_and_its_dobj": [0, 1], "find_root_verb_and_its_dobj_in_str": [0, 1], "finetun": 11, "fingerprint": 14, "fingerprint_util": [0, 16], "fingerprintd": 14, "finish": 11, "first": [1, 3, 7, 8, 9, 11, 14], "first_sent": 1, "fix": 11, "fix_unicode_mapp": [0, 5, 15], "fixtur": 14, "fixunicodemapp": [5, 11], "flag": [9, 14], "flagged_word": 9, "flagged_words_dir": 9, "flagged_words_filt": [0, 5, 15], "flagged_words_ratio": [0, 14], "flaggedwordfilt": [5, 9], "flatten": 3, "fleet": 11, "flip": [9, 11], "float": [3, 8, 9, 11, 12, 14], "flow": 9, "flurri": 11, "flush": [0, 14], "fn": 4, "focus": 11, "follow": [3, 4, 11], "follow_read": [0, 14], "forc": [11, 14], "force_divisible_bi": 11, "force_original_aspect_ratio": 11, "forcefulli": 14, "forg": 11, "form": [11, 14], "format": [0, 2, 3, 9, 11, 14, 15, 16], "format_cache_file_nam": [0, 14], "formatt": [0, 3, 15, 16], "former": [9, 11], "found": [9, 11, 14], "foundat": 15, "four": 14, "fp16": 11, "fp32": 11, "fpp": 4, "frame": [9, 11, 14], "frame_dir": 11, "frame_func": 14, "frame_kei": 11, "frame_num": [9, 11, 14], "frame_sample_num": 9, "frame_sampling_method": [9, 11], "frames_per_second": 9, "free": 3, "free_model": [0, 14], "frequenc": 12, "frequency_specified_field_selector": [0, 3, 5, 15], "frequencyspecifiedfieldselector": [5, 12], "frequent": 11, "from": [2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 14], "from_dict": [0, 3], "from_dir": 14, "from_xx": 3, "frustrat": 11, "fsspec": 3, "ftp": 11, "full": [9, 11, 14], "func": 3, "function": [1, 3, 7, 8, 11, 14], "function_nam": 11, "further": 9, "fuse": 5, "fuse_filter_group": [0, 5], "fuse_oper": [0, 5], "fused_filt": 5, "fusedfilt": [0, 5], "futur": 11, "g": [2, 3, 4, 6, 11, 14], "game": 11, "gaussian": 11, "ge": [8, 11, 12], "gener": [1, 3, 11, 14], "generate_dataset": [0, 14], "generate_fingerprint": [0, 14], "generate_qa_from_examples_mapp": [0, 5, 15], "generate_qa_from_text_mapp": [0, 5, 15], "generated_dataset_config": [4, 11], "generateqafromexamplesmapp": [5, 11], "generateqafromtextmapp": [5, 11], "geo": 11, "get": [0, 1, 4, 5, 7, 14], "get_abs_path": [0, 3], "get_access_log": [0, 14], "get_backup_model_link": [0, 14], "get_caller_nam": [0, 14], "get_cpu_count": [0, 14], "get_cpu_util": [0, 14], "get_decoded_frames_from_video": [0, 14], "get_divers": [0, 1], "get_file_s": [0, 14], "get_hash_method": [5, 8], "get_init_config": [0, 2], "get_key_frame_second": [0, 14], "get_left_process_list": [0, 14], "get_log_file_path": [0, 14], "get_min_cuda_memori": [0, 14], "get_model": [0, 14], "get_num_gpu": [0, 3], "get_read": [5, 9], "get_row_col": [0, 1], "get_sentences_from_docu": [5, 7], "get_special_token": [0, 14], "get_split_key_fram": [5, 11], "get_text_chunk": [5, 11], "get_video_dur": [0, 14], "get_words_from_docu": [5, 7], "getvalu": [0, 14], "gib": [0, 3], "git": 11, "github": 9, "give": [11, 15], "given": [1, 3, 6, 9, 10, 11, 14], "glean": 11, "glimps": 11, "global": [2, 4, 11], "global_arg": 11, "global_cfg": 4, "go": 4, "goal": 11, "googl": 9, "govern": 11, "gpt": [6, 11], "gpt4": 11, "gpu": [3, 14], "gram": 9, "grand": 11, "graph": 11, "graviti": 11, "greater": [9, 11, 12], "grid": 1, "ground": 9, "group": [1, 5, 7, 9, 10], "group_by_kei": 10, "group_siz": 7, "grouper": [0, 5, 6], "gt": [3, 6, 8, 9, 11, 12, 14], "guarante": 3, "guid": 11, "guidanc": [11, 15], "guidance_scal": 11, "gz": 14, "gzip": 14, "gzipcompressor": [0, 14], "h": [4, 9, 11], "ha": [11, 14], "haarcascade_frontalface_alt": [9, 11], "had": 11, "ham": 8, "hamming_dist": 8, "hand": 11, "hard": 2, "hash": [0, 3, 5, 8, 14], "hash_byt": [0, 14], "hash_default": [0, 14], "hash_length": 14, "hash_val": 14, "hash_val1": 14, "hash_val2": 14, "hasher": [0, 14], "hashkei": [0, 14], "have": [9, 11], "he": 11, "header": 11, "heartbeat": 11, "heatmap": 1, "heaven": 11, "height": [9, 11, 14], "help": 3, "helper": [3, 14], "helper_func": [0, 5, 15], "here": [9, 11, 14, 15], "hexdigest": [0, 14], "hf": 11, "hf_ast": 11, "hf_blip": 9, "hf_clip": 9, "hf_diffus": 11, "hf_img2seq": 11, "hf_model": 11, "hf_model_nam": 14, "hf_nsfw_model": 9, "hf_owlvit": 9, "hf_scorer_model": 9, "hf_summar": 11, "hf_token": 9, "hf_video_blip": 11, "hf_watermark_model": 9, "hh": [4, 14], "hi": 11, "hiddenprint": [0, 14], "hide": 14, "high": [9, 11], "high_level_keyword": 11, "higher": 11, "him": 11, "histogram": 1, "histori": [5, 11], "history_kei": 5, "hive": 3, "hk2": 11, "hk2t": 11, "home": 9, "homophon": 11, "hong": 11, "hook": [0, 14], "horizont": [9, 11], "horizontal_flip": [9, 11], "hostnam": 8, "how": 11, "hpp": 4, "html": [1, 4, 9, 11], "http": [1, 9, 11], "hub": 4, "hug": [9, 11, 14], "hugginfac": 11, "huggingfac": [1, 3, 4, 9, 11, 14], "human": 11, "hzz": 9, "i": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 14], "id": [11, 14], "idea": 11, "ident": 11, "identif": 9, "identifi": [9, 11, 14], "ideolog": 11, "idiom": 11, "if_loop_prompt": 11, "ignor": [8, 11], "ignore_missing_path": 3, "ignore_non_charact": 8, "ignore_pattern": 8, "ignore_special_charact": 11, "illus": 11, "imag": [0, 1, 5, 8, 9, 11, 14], "image2imag": 14, "image_aesthetics_filt": [0, 5, 15], "image_aesthetics_scor": [0, 14], "image_aspect_ratio_filt": [0, 5, 15], "image_blur_mapp": [0, 5, 15], "image_byt": 14, "image_byte_to_base64": [0, 14], "image_captioning_from_gpt4v_mapp": [0, 5, 15], "image_captioning_mapp": [0, 5, 15], "image_dedupl": [0, 5, 15], "image_diffusion_mapp": [0, 5, 15], "image_face_blur_mapp": [0, 5, 15], "image_face_count_filt": [0, 5, 15], "image_face_ratio_filt": [0, 5, 15], "image_height": [0, 14], "image_kei": 5, "image_nsfw_filt": [0, 5, 15], "image_nsfw_scor": [0, 14], "image_pair_similar": [0, 14], "image_pair_similarity_filt": [0, 5, 15], "image_path": 14, "image_path_to_base64": [0, 14], "image_s": [0, 14], "image_shape_filt": [0, 5, 15], "image_size_filt": [0, 5, 15], "image_tag": [0, 14], "image_tagging_mapp": [0, 5, 15], "image_text_matching_filt": [0, 5, 15], "image_text_matching_scor": [0, 14], "image_text_similar": [0, 14], "image_text_similarity_filt": [0, 5, 15], "image_watermark_filt": [0, 5, 15], "image_watermark_prob": [0, 14], "image_width": [0, 14], "imageaestheticsfilt": [5, 9], "imageaspectratiofilt": [5, 9], "imageblurmapp": [5, 11], "imagecaptioningfromgpt4vmapp": [5, 11], "imagecaptioningmapp": [5, 11], "imagededupl": [5, 8], "imagediffusionmapp": [5, 11], "imagefaceblurmapp": [5, 11], "imagefacecountfilt": [5, 9], "imagefaceratiofilt": [5, 9], "imagehash": [0, 14], "imagensfwfilt": [5, 9], "imagepairsimilarityfilt": [5, 9], "imageshapefilt": [5, 9], "imagesizefilt": [5, 9], "imagetaggingmapp": [5, 11], "imagetextmatchingfilt": [5, 9], "imagetextsimilarityfilt": [5, 9], "imagewatermarkfilt": [5, 9], "impact": 11, "implement": [3, 8], "implic": 11, "import": [6, 11, 14], "improv": 3, "in_memory_max_s": 3, "includ": [1, 2, 3, 5, 8, 9, 11, 14], "include_path": 3, "incompat": 14, "incomplet": 14, "incorrect": 11, "increas": 11, "independ": [3, 9, 11], "index": [3, 5, 14, 15], "index_kei": 5, "indexerror": 14, "indic": [1, 3, 11, 14], "infer": 11, "influenc": 11, "info": [4, 5, 11, 14], "inform": [1, 3, 5, 8, 9, 11, 12], "init": [2, 5], "init_config": [0, 2], "init_parameter_dict": 5, "init_setup_from_cfg": [0, 2], "initi": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "initial_valu": 3, "inlin": 11, "inpaint": 14, "input": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12, 14], "input_dict": 14, "input_kei": [6, 11], "input_path": 14, "input_s": 14, "input_templ": [6, 11], "input_text": 11, "input_video": 14, "inputcontain": 14, "insert": 11, "insert_random_char": 11, "insert_texts_after_placehold": [0, 14], "insight": 3, "insight_min": [0, 3], "instal": [0, 14], "instanc": [5, 14], "instead": [3, 4, 7], "instruct": 11, "int": [3, 4, 6, 8, 9, 11, 12, 14], "integ": [11, 14], "intellig": 11, "interact": [11, 14], "interfac": 11, "intermedi": [5, 8, 9], "intern": [4, 14], "interv": 3, "intervar": [0, 14], "intric": 11, "introspect": 11, "invert": 7, "invok": 11, "involv": 11, "inward": 11, "iou": [0, 9, 14], "iou_thr": 9, "ipv4": 11, "ipv6": 11, "is_absolute_path": [0, 14], "is_batched_op": [0, 5], "is_cuda_avail": [0, 16], "is_dupl": [0, 14], "is_filt": 3, "is_float": [0, 14], "is_numb": [5, 9], "is_singleton": 14, "is_string_list": [0, 14], "item": [2, 3, 5, 11], "iter": [3, 9, 11, 14], "itm": 9, "its": [1, 3, 4, 5, 8, 9, 11, 14], "j": 4, "jaccard": 8, "jaccard_threshold": 8, "jaid": 9, "japanes": 11, "java": 4, "jaw": 11, "jensen": 1, "jl": 4, "jobrequiredkei": [0, 14], "join": 9, "join_char": 7, "jordan": 11, "jp2t": 11, "jpg": 14, "js_diverg": 1, "jsdivmeasur": [0, 1], "json": [2, 3, 4, 9, 14], "json_formatt": [0, 15, 16], "json_ind": 2, "jsonargpars": [2, 3], "jsondatasourc": 3, "jsonformatt": [0, 4], "jsonl": [3, 4], "jsonnet": 2, "jsonstreamdatasourc": [0, 3], "judg": 11, "juicer": 3, "just": 3, "kanji": 11, "karg": 3, "kb": 9, "kdd": 15, "keep": [1, 3, 5, 8, 9, 11, 14], "keep_alphabet": 11, "keep_candidate_mod": 11, "keep_hashes_in_res_d": 3, "keep_in_memori": 3, "keep_numb": 11, "keep_original_sampl": 11, "keep_punc": 11, "keep_stats_in_res_d": 3, "keep_tag_num": 11, "kei": [1, 3, 4, 5, 6, 9, 10, 11, 12, 14], "kenlm": 14, "kept": [8, 9, 11], "kernel": 11, "kernel_s": 11, "key_value_group": [0, 5], "keyboard": 11, "keyboard_error_char": 11, "keyerror": 14, "keyfram": [9, 14], "keyvaluegroup": [5, 10], "keyword": [0, 6, 9, 11, 14], "keyword_kei": 11, "kib": [0, 3], "kind": [9, 11], "kl_diverg": 1, "kldivmeasur": [0, 1], "knowledg": 11, "kong": 11, "kpyu": 11, "kullback": 1, "kwarg": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12, 14], "ky\u016bjitai": 11, "l14": 9, "label": 1, "labl": 1, "lai": 11, "lambda": 11, "lambda_str": 11, "lang": [0, 9, 11, 14], "lang_or_model": 1, "lang_scor": [0, 14], "langaug": 14, "languag": [1, 8, 9, 11, 14], "language_id_score_filt": [0, 5, 15], "languageidscorefilt": [5, 9], "languages_to_detect": 9, "larg": [9, 14], "large_area_ratio_thr": 9, "larger": [9, 11, 12, 14], "largest": [1, 9, 12], "last": [9, 11, 14], "latenc": 14, "latest": 14, "latex": 11, "latter": [9, 11], "layer": 3, "lazili": 14, "lazy_load": [0, 16], "lazyload": [0, 14], "le": [8, 11, 12], "lead": 11, "leader": 11, "leadership": 11, "leak": 14, "learn": 11, "leav": 11, "left": [9, 11, 14], "leibler": 1, "len": 11, "length": [3, 4, 6, 9, 11, 14], "less": [3, 8, 9, 11, 12, 14], "letter": 11, "level": [3, 5, 6, 7, 8, 9, 11, 12, 14], "lexic": 1, "librari": [11, 14], "lid": 14, "light_rag_extract": [5, 11], "like": [3, 7, 8, 9, 11, 14], "limit": [6, 9, 14], "line": [0, 1, 2, 9, 11, 14], "linearms": 9, "link": [3, 11, 14], "list": [0, 1, 2, 3, 4, 5, 7, 9, 10, 11, 14], "liter": [3, 11], "lkove": 11, "ll": 11, "llama3": 11, "llm": [11, 14], "load": [0, 1, 3, 11, 14, 15, 16], "load_analysis_r": 3, "load_audio": [0, 14], "load_ckpt": [0, 14], "load_data_np": 3, "load_data_with_context": [0, 14], "load_dataset": [0, 4], "load_formatt": [0, 4], "load_from_disk": [0, 3], "load_func": 14, "load_imag": [0, 14], "load_image_byt": [0, 14], "load_images_byt": [0, 14], "load_op": [0, 5], "load_ops_with_stats_meta": [0, 2], "load_video": [0, 14], "load_words_asset": [0, 14], "loaded_audio": [0, 14], "loaded_data_kei": 14, "loaded_imag": [0, 14], "loaded_video": [0, 14], "local": [4, 5, 14], "local_nam": 14, "localformatt": [0, 4], "localhost": 8, "locat": [9, 11, 14], "lock": [11, 14], "lock_fil": 14, "log": [2, 14], "log_level": 14, "logfile_path": 14, "logger": 14, "logger_util": [0, 16], "logo": 9, "loguru": 14, "long": 11, "longer": [9, 14], "look": 11, "lot": 7, "love": 11, "low": 9, "lower": [7, 8, 9, 11, 12], "lower_cas": 7, "lower_percentil": 12, "lower_rank": 12, "lowercas": [7, 8, 11], "lsh": 8, "lua": 4, "luma_onli": 11, "lz4": 14, "lz4compressor": [0, 14], "m": [4, 11], "machin": 3, "macro": 11, "magnitud": 9, "mai": [4, 9, 11, 14], "main": [9, 11], "main_ent": [0, 14], "mainland": 11, "mainli": [3, 14], "make": [11, 14], "makefil": 4, "manag": [3, 11, 14], "mani": 11, "manner": [3, 14], "map": [0, 3, 4, 5, 11, 14], "mapper": [0, 3, 5, 15], "mark": 11, "markdown": 4, "match": [8, 9, 11], "matter": 1, "max": [3, 4, 6, 8, 9, 11, 14], "max_area_ratio": 9, "max_batch_s": [0, 3], "max_col": 11, "max_dur": 9, "max_face_count": 9, "max_glean": 11, "max_height": [9, 11], "max_len": [9, 11], "max_length": 14, "max_line_length": [0, 14], "max_num": 9, "max_ppl": 9, "max_ratio": [9, 11], "max_recal": 9, "max_sampl": 4, "max_scor": 9, "max_siz": 9, "max_snr": 9, "max_token": 11, "max_token_num": [6, 14], "max_valu": 9, "max_width": [9, 11], "maximum": [3, 9, 11, 14], "maximum_line_length_filt": [0, 5, 15], "maximumlinelengthfilt": [5, 9], "maxsiz": 9, "mayb": 14, "mb": [3, 9], "md": [4, 14], "md5": 8, "mdict": 3, "mean": [1, 3, 11, 14], "measur": [0, 11, 15, 16], "meet": [9, 11], "mem": 3, "mem_requir": 14, "member": 11, "memori": [3, 14], "merg": [2, 4, 7, 9], "merge_config": [0, 2], "merge_on_whitespace_tab_newlin": [5, 7], "messag": [6, 11, 14], "meta": [0, 2, 3, 4, 14], "meta_nam": [0, 14], "meta_provid": 3, "metadata": [8, 11, 12], "method": [1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "method_nam": 8, "methodnam": 14, "metric": [3, 5, 8, 9], "mib": [0, 3], "middl": [9, 11, 14], "might": [9, 11, 14], "min": [3, 8, 9, 11], "min_action_num": 9, "min_area_ratio": 9, "min_col": 11, "min_content_v": 11, "min_delta_hsv": 11, "min_dependency_num": 9, "min_dur": 9, "min_face_count": 9, "min_frame_threshold": 11, "min_height": [9, 11], "min_last_split_dur": 11, "min_len": [9, 11], "min_num": 9, "min_ratio": [9, 11], "min_recal": 9, "min_repeat_sentence_length": 11, "min_scene_len": 11, "min_scor": 9, "min_siz": 9, "min_snr": 9, "min_valu": 9, "min_width": [9, 11], "mine": 3, "minhash": [0, 8, 14], "minhashlsh": 8, "mini_action_num": 9, "mini_dependency_num": 9, "minim": 8, "minimum": [9, 11], "miss": 11, "mission": 11, "mit": 11, "mix": [4, 11], "mixtur": 4, "mixture_formatt": [0, 15, 16], "mixtureformatt": [0, 4], "mm": 14, "mm_util": [0, 16], "mnb": 11, "modal": 15, "mode": [9, 11, 14], "model": [1, 6, 7, 8, 9, 11, 14, 15], "model_func": 7, "model_kei": 14, "model_kwarg": 14, "model_nam": 14, "model_param": [6, 11, 14], "model_path": 14, "model_typ": 14, "model_util": [0, 16], "modif": [3, 4], "modifi": 4, "modul": [15, 16], "module_cl": 14, "module_kei": 14, "module_nam": 14, "modulenam": 14, "moduletyp": 14, "moment": 11, "monitor": [0, 5, 15, 16], "monitor_all_resourc": [0, 3], "monitor_current_resourc": [0, 3], "monitor_func": [0, 3], "more": [3, 9, 11, 14, 15], "most": [3, 11], "most_relavant_entities_aggreg": [0, 5], "mostrelavantentitiesaggreg": [5, 6], "motion": 9, "multi": [9, 11, 12, 14, 15], "multifil": 2, "multilin": 11, "multimod": 14, "multimodal_data_output_dir": [0, 14], "multipl": [2, 3, 4, 7, 8, 9, 11, 14], "must": [4, 5, 6, 9, 11, 14], "mutual": 11, "my": 3, "n": [6, 7, 9, 11], "n1": 11, "n2": 11, "n3": 11, "n4": 11, "n_compon": 9, "naive_group": [0, 5], "naivegroup": [5, 10], "nalex": 11, "name": [0, 1, 2, 3, 4, 5, 6, 9, 11, 14], "name_pattern": 14, "namespac": [2, 3], "namespace_to_arg_list": [0, 2], "narrow": 11, "natur": 11, "nb": 11, "nearbi": 11, "necessari": [11, 14], "need": [1, 3, 5, 7, 9, 11, 12, 14], "neg": [8, 11], "nentity_typ": 11, "nest": [3, 6, 10, 11, 14], "nested_access": [0, 14], "nested_aggreg": [0, 5], "nested_obj_factori": [0, 3], "nested_queri": [0, 3], "nested_set": [0, 14], "nestedaggreg": [5, 6], "nesteddataset": [0, 3], "nesteddatasetdict": [0, 3], "nestedquerydict": [0, 3], "new": [3, 4, 11, 14], "new_cfg": 2, "new_column_nam": 3, "new_ds_cache_path": 2, "new_lin": 7, "new_text": 14, "nexampl": 11, "nfc": 11, "nfd": 11, "nfkc": 11, "nfkd": 11, "nfor": 11, "nformat": 11, "ngiven": 11, "nicknam": [0, 11, 14], "nickname_kei": 11, "nit": 11, "nlp": 1, "nlpaug": 11, "nlpaug_en_mapp": [0, 5, 15], "nlpaugenmapp": [5, 11], "nlpcda": 11, "nlpcda_zh_mapp": [0, 5, 15], "nlpcdazhmapp": [5, 11], "nltk": 14, "nm": 9, "nmf": 9, "nmf_iter": 9, "nmf_iter_num": 9, "nod": 11, "node": 3, "nois": 11, "non": [7, 8, 11], "none": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "nonetyp": [8, 11, 12], "nonzero": 3, "noqa": [1, 9], "normal": [9, 11, 14], "note": 11, "notic": [3, 11], "noun": 1, "noutput": 11, "now": [1, 3, 7, 11], "nsfw": 9, "nsfw_image_detect": 9, "ntext": 11, "nthe": 11, "ntheir": 11, "nthen": 11, "ntogeth": 11, "null_valu": [0, 4], "num": [6, 11, 14], "num_act": [0, 14], "num_band": 8, "num_block": 8, "num_dependency_edg": [0, 14], "num_inference_step": 11, "num_perm": 8, "num_permut": 8, "num_proc": [1, 3, 4, 14], "num_rows_per_band": 8, "num_token": [0, 14], "num_word": [0, 14], "number": [1, 3, 4, 5, 6, 8, 9, 11, 12, 14], "numer": [9, 11, 14], "numpi": 1, "nwhile": 11, "n\u4e0d\u7518\u5fc3\u7684\u767d\u9aa8\u7cbe\u7b2c\u4e09\u6b21\u5316\u4f5c\u8001\u516c\u516c\u6765\u8bf1\u9a97": 6, "n\u4e0e": 6, "n\u4eba\u72691": 6, "n\u4ed6\u4eec\u4e0d\u518d\u662f\u5355\u7eaf\u7684\u6267\u884c\u8005": 11, "n\u4ee5\u4e0b\u662f\u539f\u59cb\u95ee\u7b54\u5bf9": 11, "n\u4f18\u5316\u540e\u7684\u56de\u7b54": 11, "n\u4f18\u5316\u540e\u7684\u95ee\u9898": 11, "n\u4f60\u5bf9\u5404\u4e2a": 6, "n\u5176\u4e2d\u5173\u4e8e\u8d3e\u5e9c\u5185\u90e8\u6597\u4e89\u7684\u90e8\u5206\u5c24\u5176\u7cbe\u5f69": 11, "n\u5206\u6790\u63a8\u7406": 11, "n\u53f7\u79f0\u9f50\u5929\u5927\u5723": 6, "n\u5510\u50e7\u5e08\u5f92\u56db\u4eba\u884c\u81f3\u767d\u864e\u5cad": 6, "n\u5510\u50e7\u5e08\u5f92\u5728\u767d\u864e\u5cad\u4e09\u9047\u767d\u9aa8\u7cbe\u53d8\u5316\u8bf1\u60d1": 6, "n\u5982\u4e0b\u662f\u4e00\u6761\u793a\u4f8b\u6570\u636e": 11, "n\u5996\u602a\u518d\u53d8\u8001\u5987\u5bfb\u5973": 6, "n\u6240\u4ee5": 11, "n\u6309\u7167\u4ee5\u4e0b\u683c\u5f0f\u8f93\u51fa": 11, "n\u63cf\u8ff0\u4e86\u4e66\u4e2d\u7684\u4e24\u4e2a\u5973\u6027\u89d2\u8272\u4e4b\u95f4\u56f4\u7ed5\u6743\u529b\u5c55\u5f00\u7684\u7ade\u4e89": 11, "n\u6587\u6863\u603b\u7ed3": 6, "n\u6587\u6863\u788e\u7247": 6, "n\u6700\u7ec8": 6, "n\u6821\u51c6\u540e\u7684\u56de\u7b54": 11, "n\u6821\u51c6\u540e\u7684\u95ee\u9898": 11, "n\u751f\u6210\u7684\u65b0\u56de\u7b54": 11, "n\u751f\u6210\u8be5\u56de\u7b54\u7684\u539f\u56e0": 11, "n\u767d\u9aa8\u7cbe\u9996\u6b21\u53d8\u8eab\u5c11\u5973\u9001\u658b": 6, "n\u8981\u6c42": [6, 11], "n\u968f\u7740\u4e0e\u534e\u76db\u987f\u7684\u901a\u8baf\u5728\u80cc\u666f\u4e2d\u55e1\u55e1\u4f5c\u54cd": 11, "n\u968f\u7740\u4e0e\u661f\u8fb0\u7684\u8054\u7cfb\u53d8\u5f97\u66f4\u52a0\u7262\u56fa": 11, "o": 14, "obj": 3, "object": [1, 2, 3, 4, 5, 7, 9, 14], "objet": 9, "observ": 11, "obtain": [3, 7], "ocr": [9, 11], "ocr_error_char": 11, "oe": 11, "off": 14, "offer": 11, "offerd": 11, "offici": 9, "omit": 9, "onc": 14, "one": [1, 2, 7, 8, 9, 10, 11, 14], "ones": 3, "onli": [1, 3, 8, 9, 11, 14], "onlin": 14, "op": [0, 2, 3, 14, 15, 16], "op_cfg": 14, "op_class": 2, "op_fus": [0, 15, 16], "op_kwarg": 14, "op_list": 2, "op_nam": [2, 3, 14], "op_name_class": 2, "op_proc": 3, "open": [5, 8, 11], "open_json": 3, "open_monitor": 3, "openai": [9, 14], "openai_base_url": 14, "opencv": [9, 11], "opened_aug_method": 11, "oper": [3, 5, 9, 14], "opt": 11, "optic": 9, "optim": [8, 11], "optimal_param": [5, 8], "optimize_qa_mapp": [0, 5, 15], "optimize_query_mapp": [0, 5, 15], "optimize_response_mapp": [0, 5, 15], "optimizeqamapp": [5, 11], "optimizequerymapp": [5, 11], "optimizeresponsemapp": [5, 11], "optimum": 14, "option": [1, 3, 4, 11, 14], "order": [3, 6, 11, 12], "org": [1, 9, 11], "organ": 11, "ori_cfg": 2, "ori_config": 2, "ori_ratio": 11, "origin": [2, 3, 4, 5, 9, 11, 14], "original_filepath": 14, "original_filter_group": 5, "original_process_list": 14, "original_s": 14, "original_str": 14, "other": [3, 9, 11, 14], "otherwis": [11, 14], "our": 11, "out": [4, 9], "output": [5, 6, 11, 14], "output_audio": 14, "output_kei": [6, 11], "output_path": [1, 14], "output_pattern": [6, 11], "output_pattern_templ": [6, 11], "output_video": 14, "ov4": 11, "over": [1, 11], "overal": 1, "overall_analysi": [0, 15, 16], "overall_result": 1, "overallanalysi": [0, 1, 3], "overarch": 11, "overlap": [9, 11, 14], "overlap_len": 11, "overrid": [3, 14], "override_num_block": 3, "overrul": 9, "overwrit": [2, 11], "overwrite_output": 11, "ovl": 11, "owl": 9, "owlvit": 9, "own": 11, "p": [1, 3, 11], "p1": 9, "p2": 9, "p3": 9, "packag": [15, 16], "page": 15, "pai": 11, "pair": [2, 3, 5, 8, 9, 11], "pair_preference_mapp": [0, 5, 15], "pairpreferencemapp": [5, 11], "palpabl": 11, "panda": 1, "paper": 9, "parallel": 3, "param": [1, 2, 3, 4, 6, 7, 8, 11, 14], "param_dict": 5, "paramet": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "parent": 11, "parquet": [3, 4], "parquet_formatt": [0, 15, 16], "parquetformatt": [0, 4], "pars": [2, 6, 11, 14], "parse_output": [5, 6, 11], "parse_string_to_roi": [0, 14], "parser": 2, "parser_mod": 2, "part": [6, 14], "partit": 3, "partition_filt": 3, "pass": [3, 6, 11, 14], "patam": 14, "patch32": 9, "path": [1, 2, 3, 4, 6, 8, 9, 11, 14], "path_kei": 3, "pathlik": 14, "pattern": [6, 8, 11, 14], "paus": 11, "pdf": [4, 9], "peopl": 9, "per": [8, 11], "percentil": [1, 12], "percept": 11, "perform": 3, "perl": 4, "permut": 8, "perplex": [0, 9, 14], "perplexity_filt": [0, 5, 15], "perplexityfilt": [5, 9], "person": 11, "perspect": 11, "phash": 8, "php": 4, "php3": 4, "php4": 4, "php5": 4, "phpt": 4, "phrase": 9, "phrase_grounding_recal": [0, 14], "phrase_grounding_recall_filt": [0, 5, 15], "phrasegroundingrecallfilt": [5, 9], "pickl": 14, "pil_imag": 14, "pil_to_opencv": [0, 14], "pip": 14, "pipe_task": 14, "pipelin": [3, 14], "pixel": [11, 14], "pixel_divers": 11, "pixel_valu": 11, "pl": 4, "placehold": [11, 14], "plai": 11, "pleas": [8, 11], "plot": 1, "pm": 4, "pod": 4, "point": 11, "port": 8, "portrai": 11, "posit": [8, 9, 11], "posix": 2, "post": 9, "postproc_func": 1, "postproc_kwarg": 1, "potenti": 11, "power": 11, "practic": 15, "pre": [3, 11], "precomput": 1, "predict": 9, "predictor": 9, "prefer": 11, "prefix": [2, 14], "prepar": 14, "prepare_api_model": [0, 14], "prepare_convert": [5, 11], "prepare_diffusion_model": [0, 14], "prepare_fasttext_model": [0, 14], "prepare_huggingface_model": [0, 14], "prepare_kenlm_model": [0, 14], "prepare_model": [0, 14], "prepare_nltk_model": [0, 14], "prepare_opencv_classifi": [0, 14], "prepare_recognizeanything_model": [0, 14], "prepare_sentencepiece_for_lang": [0, 14], "prepare_sentencepiece_model": [0, 14], "prepare_side_config": [0, 2], "prepare_simple_aesthetics_model": [0, 14], "prepare_spacy_model": [0, 14], "prepare_video_blip_model": [0, 14], "prepare_vllm_model": [0, 14], "preprocess_dataset": [0, 3], "present": 11, "pretrained_model_name_or_path": 14, "prev_d": 14, "prev_fram": 9, "preview": 11, "previou": 14, "previous": 3, "previous_d": 3, "print": 14, "prob": 8, "prob_threshold": 9, "probabl": [8, 9, 11], "probe": [3, 5], "probe_r": 5, "probe_small_batch": [0, 3], "process": [0, 1, 3, 4, 5, 7, 8, 9, 10, 11, 12, 14, 15], "process_batch": [0, 5, 9, 11], "process_each_fram": [0, 14], "process_list": 5, "process_singl": [0, 5, 6, 8, 9, 11], "process_util": [0, 16], "processed_d": 3, "processor": 14, "processor_config": 14, "produc": 11, "progress": 11, "project": 9, "project_dir": 3, "prompt": [6, 11], "prompt_kei": 11, "prompt_templ": 11, "properti": [4, 14], "provid": [4, 8, 11, 14], "proxi": 14, "ps1": 4, "psd1": 4, "psm1": 4, "pth": 14, "pull": 14, "punctuat": [7, 8, 11], "punctuation_normalization_mapp": [0, 5, 15], "punctuationnormalizationmapp": [5, 11], "punkt": 14, "put": 11, "pval_th": 3, "py": [3, 4], "pyarrow": 3, "pyav": 14, "pycocotool": 14, "pypi": 9, "pythia": 9, "python": [3, 11, 14], "python_file_mapp": [0, 5, 15], "python_lambda_mapp": [0, 5, 15], "pythonfilemapp": [5, 11], "pythonlambdamapp": [5, 11], "pytorch": 9, "q": 1, "qa": 11, "qa_exampl": 11, "qa_pair": 11, "qa_pair_templ": 11, "qualiti": 11, "quantil": 1, "queri": [3, 5, 6, 11], "query_attribut": 11, "query_cuda_info": [0, 14], "query_ent": 11, "query_entity_typ": 6, "query_kei": [5, 14], "query_mem_info": [0, 14], "query_most_relavant_ent": [5, 6], "question": 11, "quieter": 11, "qwen": 11, "qwen1_5": 11, "qwen2": 11, "r": [4, 8, 14], "radiu": 11, "raft": 9, "rai": [3, 4, 8, 11, 14], "rais": 14, "ram": 9, "ram_plus_swin_large_14m": 14, "ram_tag_list": 9, "random": [4, 11, 12], "random_ani": 11, "random_sampl": [0, 4], "random_selector": [0, 5, 15], "randomli": [4, 11], "randomselector": [5, 12], "rang": [3, 9, 11, 12, 14], "range_specified_field_selector": [0, 5, 15], "rangespecifiedfieldselector": [5, 12], "rank": [3, 5, 6, 9, 11, 12, 14], "rate": 9, "rather": 11, "ratio": [3, 4, 7, 9, 11, 12, 14], "raw": [3, 11], "raw_output": 11, "ray_basic_dedupl": [0, 5, 15], "ray_data": [0, 15, 16], "ray_document_dedupl": [0, 5, 15], "ray_executor": [0, 15, 16], "ray_image_dedupl": [0, 5, 15], "ray_remote_arg": 3, "ray_video_dedupl": [0, 5, 15], "raybasicdedupl": [5, 8], "raydataset": [0, 3], "raydocumentdedupl": [5, 8], "rayemptyformatt": [0, 4, 11], "rayexecutor": [0, 3], "rayimagededupl": [5, 8], "rayvideodedupl": [5, 8], "rb": 4, "re": 14, "read": [3, 4, 14], "read_json": [0, 3], "read_json_stream": [0, 3], "readi": 11, "real": 11, "reason": [11, 14], "reason_kei": 11, "rebellion": 11, "recal": 9, "recip": 3, "recogn": [9, 14], "recognizeanyth": 14, "recommend": [8, 11], "record": [0, 11, 14], "record_delimit": 11, "recurr": 9, "recursive_summari": [5, 6], "recursively_chunk": [5, 11], "red": 1, "redi": 8, "redirect": 14, "redirect_sys_output": [0, 14], "redis_host": 8, "redis_port": 8, "reduc": [5, 9, 11], "reduce_mod": 9, "ref": 1, "refer": [1, 9, 11], "reference_templ": 11, "refin": 7, "refine_single_column": [0, 1], "refined_word": [0, 14], "regard": [8, 11, 14], "region": [11, 14], "regist": 14, "register_modul": [0, 14], "registri": [0, 16], "regular": 11, "reject": 11, "rejected_kei": 11, "rejected_respons": 11, "rel": [9, 14], "relat": [0, 1, 3, 6, 9, 11, 14], "relatedttestmeasur": [0, 1], "relation_descript": [0, 14], "relation_identity_mapp": [0, 5, 15], "relation_kei": 11, "relation_keyword": [0, 14], "relation_pattern": 11, "relation_strength": [0, 14], "relationidentitymapp": [5, 11], "relationship": 11, "relationship_descript": 11, "relationship_keyword": 11, "relationship_strength": 11, "relav": 6, "relev": [11, 14], "relevant_char_kei": 11, "relevant_charact": [0, 14], "reload": 14, "reluct": 11, "remot": [3, 11], "remoteformatt": [0, 4], "remov": [3, 5, 7, 9, 11, 14], "remove_bibliography_mapp": [0, 5, 15], "remove_column": [0, 3], "remove_comments_mapp": [0, 5, 15], "remove_extra_paramet": [0, 5], "remove_header_mapp": [0, 5, 15], "remove_long_words_mapp": [0, 5, 15], "remove_non_chinese_character_mapp": [0, 5, 15], "remove_non_special_token": [0, 14], "remove_punctu": [5, 9], "remove_repeat_sentences_mapp": [0, 5, 15], "remove_special_token": [0, 14], "remove_specific_chars_mapp": [0, 5, 15], "remove_table_text_mapp": [0, 5, 15], "remove_words_with_incorrect_substrings_mapp": [0, 5, 15], "removebibliographymapp": [5, 11], "removecommentsmapp": [5, 11], "removeheadermapp": [5, 11], "removelongwordsmapp": [5, 11], "removenonchinesecharacterlmapp": [5, 11], "removerepeatsentencesmapp": [5, 11], "removespecificcharsmapp": [5, 11], "removetabletextmapp": [5, 11], "removewordswithincorrectsubstringsmapp": [5, 11], "render": 14, "rep_len": 9, "repeat": 11, "repetit": 9, "repl": 11, "replac": [11, 14], "replace_content_mapp": [0, 5, 15], "replace_equivalent_num": 11, "replace_func": [5, 11], "replace_homophone_char": 11, "replace_similar_word": 11, "replacecontentmapp": [5, 11], "repo": 14, "repons": 11, "repositori": 4, "repres": 14, "represent": 11, "request": [3, 11], "requir": [8, 9, 11, 12, 14], "require_f_path": 14, "rerun": 14, "rescal": [5, 9, 11], "resiz": [9, 11, 14], "resolut": [9, 11], "reson": 11, "resourc": 3, "resource_analysi": 3, "resource_monitor": [0, 3], "resource_util": [0, 16], "resource_util_dict": 3, "resource_util_list": 3, "respect": [1, 8, 11, 14], "respons": [5, 6, 11, 14], "response_kei": 5, "response_path": [6, 11, 14], "result": [1, 3, 9], "retain": [9, 11], "retri": [6, 11], "return": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "return_model": 14, "return_pip": 14, "return_processor": 14, "return_sampl": 5, "rever": 11, "revers": [7, 12, 14], "revis": 11, "rewrit": 11, "reykjavik": 11, "right": [9, 11, 14], "rivera": 11, "roi": [11, 14], "roi_kei": 11, "roi_str": [11, 14], "roi_typ": [11, 14], "role": 11, "root": 1, "root_obj": 3, "row": [1, 8], "rst": 4, "rule": [11, 12], "run": [0, 3, 5, 9, 11, 14], "run_ner": [5, 9], "run_single_op": [0, 14], "runner": 9, "runtest": 14, "runtime_np": [0, 5], "s2hk": 11, "s2t": 11, "s2tw": 11, "s2twp": 11, "s3": 3, "sac": 9, "safe": 14, "said": 11, "salesforc": [9, 11], "sam": 11, "same": [1, 6, 11, 14], "sampl": [1, 3, 4, 5, 6, 8, 9, 10, 11, 12, 14], "sample_algo": 3, "sample_data": [0, 3], "sample_interv": 3, "sample_numb": 4, "sample_ratio": 3, "sampled_fram": [0, 14], "sampling_fp": 9, "sampling_param": [6, 11], "sampling_r": 14, "sapci": 14, "save": [1, 2, 3, 4, 11, 14], "save_ckpt": [0, 14], "save_dir": 14, "save_path": 1, "save_stats_in_one_fil": 1, "save_to_disk": 3, "scala": 4, "scale": 11, "scene": 11, "scene_counts_it": 11, "scenedetect": 11, "schedul": 3, "scipi": 1, "score": [9, 11], "score_threshold": 9, "scratch": 14, "search": [11, 15], "second": [1, 9, 11, 14], "section": 3, "see": [3, 14, 15], "seed": [4, 11], "seed_fil": 11, "seem": 11, "segment": [11, 14], "select": [0, 3, 4, 5, 9, 11, 12], "select_column": [0, 3], "select_num": 12, "select_ratio": 12, "selector": [0, 5, 15], "self": [5, 10], "semant": 11, "sens": 11, "sentenc": [1, 7, 11], "sentence_split_mapp": [0, 5, 15], "sentencepiec": [8, 14], "sentencesplitmapp": [5, 11], "separ": [7, 9, 11, 12, 14], "separate_signal_nois": [5, 9], "sequenc": [9, 11], "sequenti": 11, "serial": 14, "server": [8, 14], "set": [2, 3, 7, 9, 11, 12, 14], "set_clear_model_flag": [0, 14], "set_dataset_to_absolute_path": [0, 3], "setup": [2, 14], "setup_logg": [0, 14], "setup_model": [5, 9], "setup_mp": [0, 14], "setupclass": [0, 14], "sever": [1, 3, 11, 14], "sh": 4, "sha1_hash32": [5, 8], "shannon": 1, "shape": 9, "shard": 3, "share": 11, "shift": [9, 11], "shingl": 8, "shinjitai": 11, "short": 14, "shorter": [9, 11], "should": [3, 8, 9, 11, 14], "should_keep_long_word": [5, 11], "should_keep_word_with_incorrect_substr": [5, 11], "show": [1, 3, 11], "show_num": [3, 5, 8], "show_percentil": 1, "show_progress": 11, "shuffl": 3, "shunk031": 9, "signific": [3, 11], "significantli": 11, "silenc": 11, "simhash": [0, 8, 14], "similar": [8, 9, 11, 14], "similar_on": 11, "similar_one_simhash": 11, "similarity_threshold": 11, "simpl": [9, 11, 14], "simpli": 11, "simplifi": 11, "simul": 11, "sinc": [4, 7], "singl": [1, 3, 5, 11, 14], "size": [1, 3, 7, 8, 9, 11, 14], "size_to_byt": [0, 14], "skip": [2, 3, 14], "skip_check": 2, "skip_existing_cont": 14, "skip_export": [1, 3], "skip_non": 2, "skip_return": 3, "slice": [11, 14], "smali": 4, "small": [3, 9, 11], "smaller": [9, 11, 12], "smallest": 12, "snr": 9, "so": [8, 9, 11, 14], "soften": 11, "some": [2, 5, 6, 11, 14], "someth": 11, "sometim": 14, "sort": [2, 6, 12], "sort_op_by_types_and_nam": [0, 2], "sourc": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "source_ent": [0, 11, 14], "source_fil": [0, 14], "sp": 14, "space": [7, 8], "spaci": 14, "spec": 3, "special": [1, 7, 9, 11], "special_char_ratio": [0, 14], "special_charact": [0, 5, 15], "special_characters_filt": [0, 5, 15], "specialcharactersfilt": [5, 9], "specialtoken": [0, 14], "specif": [1, 3, 5, 8, 9, 11, 14], "specifi": [1, 3, 4, 7, 9, 11, 12, 14], "specified_field_filt": [0, 5, 15], "specified_numeric_field_filt": [0, 5, 15], "specifiedfieldfilt": [5, 9], "specifiednumericfield": 9, "specifiednumericfieldfilt": [5, 9], "spectrogram": 11, "speed": [3, 5], "spell": 11, "spelling_error_word": 11, "split": [2, 3, 7, 11, 14], "split_dur": 11, "split_on_newline_tab_whitespac": [5, 7], "split_on_whitespac": [5, 7], "split_pattern": 11, "split_random_word": 11, "split_sent": [5, 11], "split_text_by_punctu": [5, 7], "split_videos_by_dur": [5, 11], "splite": 7, "sql": 4, "ss": 14, "stabl": 11, "stand": 14, "standalon": 14, "standard": 11, "start": [11, 14], "start_second": 14, "stat": [0, 1, 3, 5, 8, 9, 14], "state": [3, 11, 14], "static": [1, 3, 14], "stats_kei": 14, "stats_to_hist": [0, 1], "stats_to_numb": [0, 14], "statskei": [0, 14], "statskeysconst": [0, 14], "statskeysmeta": [0, 14], "statu": 3, "std": 1, "stderr": [11, 14], "stdout": 14, "step": 11, "still": 11, "stoical": 11, "stood": 11, "stop": [11, 14], "stopword": [7, 9], "stopwords_dir": 9, "stopwords_filt": [0, 5, 15], "stopwords_ratio": [0, 14], "stopwordsfilt": [5, 9], "storage_opt": 3, "store": [1, 3, 4, 5, 8, 9, 11, 14], "store_dir": 3, "stori": 11, "str": [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "str_list": 14, "stranger": 11, "strategi": [5, 9, 11], "stream": [3, 11, 14], "stream_index": 14, "streamtologuru": [0, 14], "strength": 11, "string": [1, 2, 3, 8, 9, 11, 14], "strip": [5, 7], "strip_char": 7, "strip_charact": 7, "structur": [3, 11, 14], "student": 1, "studi": 11, "style": [2, 3], "sub": [1, 2, 6, 7, 8, 11, 14], "sub_doc": 6, "sub_doc_templ": 6, "submodul": [0, 15, 16], "subpackag": [15, 16], "subset": [3, 4], "substr": 11, "success": 14, "successfulli": 14, "suffix": [0, 4, 9, 14], "suffix_filt": [0, 5, 15], "suffixfilt": [5, 9], "suitabl": 11, "sum": 8, "summar": 11, "summari": 11, "summary_kei": 11, "super": 11, "superset": 2, "support": [1, 3, 6, 9, 10, 11, 14], "support_text": [0, 14], "support_text_kei": 11, "suppos": 11, "sure": 11, "survei": 11, "swap": 11, "swap_random_char": 11, "swap_random_word": 11, "sy": 9, "syllabl": 7, "syntax": 14, "system": [3, 6, 11, 14], "system_prompt": [6, 11], "system_prompt_templ": [6, 11], "t": [1, 3, 4, 7, 8, 14], "t2": 11, "t2hk": 11, "t2jp": 11, "t2tw": 11, "tab": 7, "tabl": [3, 11], "tag": [1, 7, 9, 11, 14], "tag_field_nam": [9, 11], "taiwan": 11, "taiwanes": 11, "take": 9, "take_batch": [0, 3], "taken": [8, 11], "talk": 11, "tar": 14, "tar_whoop": 14, "target": [3, 4, 9, 11, 12, 14], "target_ent": [0, 11, 14], "target_s": 14, "target_valu": 9, "task": [2, 11, 14], "taylor": 11, "team": [11, 14], "teardown": [0, 14], "teardownclass": [0, 14], "tech": 11, "technolog": 11, "technologi": 11, "temp": 3, "temp_dir": 2, "temperatur": [6, 11], "tempfil": 2, "templat": [6, 11], "temporarili": [5, 8, 9, 14], "tensor": 1, "term": 9, "test": [1, 3, 14], "test_tag": [0, 14], "testcas": 14, "tex": [4, 11], "text": [1, 4, 5, 6, 7, 8, 9, 11, 14], "text2imag": 14, "text_action_filt": [0, 5, 15], "text_chunk_mapp": [0, 5, 15], "text_entity_dependency_filt": [0, 5, 15], "text_formatt": [0, 15, 16], "text_formatter2": 14, "text_kei": [1, 3, 4, 5, 6, 10, 11], "text_len": [0, 6, 10, 11, 14], "text_length_filt": [0, 5, 15], "textactionfilt": [5, 9], "textchunkmapp": [5, 11], "textentitydependencyfilt": [5, 9], "textformatt": [0, 4, 14], "textformatter2": 14, "textlengthfilt": [5, 9], "texttokendistcollector": [0, 1], "tgt_path": 4, "than": [3, 4, 7, 8, 9, 11, 12, 14], "thei": [8, 11, 14], "them": [2, 4, 6, 8, 9, 11, 14], "theme": 11, "thi": [1, 3, 4, 5, 7, 8, 9, 11, 12, 14], "think": [3, 11], "this_d": 14, "those": [3, 4, 9, 11], "thread": 14, "thread_loc": 14, "threshold": [3, 8, 9, 11], "thresholddetector": 11, "through": [11, 14], "tib": [0, 3], "tiktoken": 11, "time": [3, 11, 14], "timecod": 14, "timecode_string_to_second": [0, 14], "timeout": 14, "timestamp": 3, "to_dir": 14, "to_json": [0, 3], "to_jsonl": [0, 3], "to_parquet": [0, 3], "togeth": [2, 8, 11], "token": [1, 6, 7, 8, 9, 11, 14], "token_func": 7, "token_num": 14, "token_num_filt": [0, 5, 15], "tokenizer_model": 8, "tokennumfilt": [5, 9], "toler": 5, "too": 11, "tool": [0, 16], "top": [9, 11, 12, 14], "top_k_noun": 1, "top_k_verb": 1, "top_p": [6, 11], "top_ratio": 12, "topic": 11, "topk": 12, "topk_specified_field_selector": [0, 3, 5, 15], "topkspecifiedfieldselector": [5, 12], "torch": 1, "torch_dtyp": 11, "torchvis": 9, "total": [1, 6, 9, 11, 14], "total_num": 1, "toward": 11, "trace": [3, 5, 8], "trace_batch_mapp": [0, 3], "trace_dedupl": [0, 3], "trace_filt": [0, 3], "trace_mapp": [0, 3], "tracer": [0, 5, 8, 15, 16], "track": 14, "trackingdescriptor": 14, "tradit": 11, "train": [3, 11, 14], "transfer": 14, "transfer_filenam": [0, 14], "transform": [9, 11, 14], "transform_arg": 14, "travers": 14, "tree": [1, 9], "tree_root": 1, "trepid": 11, "triangl": [1, 9], "triangle_area": [5, 9], "truce": 11, "true": [1, 2, 3, 5, 7, 8, 9, 11, 12, 14], "trust": 11, "trust_remote_cod": [9, 11, 14], "try_num": [6, 11], "tsv": 4, "tsv_formatt": [0, 15, 16], "tsvformatt": [0, 4], "tsx": 4, "ttestresult": 1, "tupl": [1, 8, 9, 14], "tuple_delimit": 11, "turn": 14, "tw2": 11, "tw2sp": 11, "tw2t": 11, "two": [1, 3, 8, 9, 11], "txt": [4, 9, 14], "type": [1, 2, 3, 4, 6, 8, 11, 14], "typic": 14, "u": 11, "uers_prompt_kei": 11, "ulaanbaatar": 11, "un": 9, "uncanni": 11, "unchang": [5, 14], "uncompress": 14, "undercurr": 11, "underli": 11, "understand": 3, "understood": 11, "uneasi": 11, "unexpect": [11, 14], "unfold": 11, "unicod": 11, "unifi": [3, 4, 14], "unified_format_dataset": 4, "uniform": [3, 9, 11], "uniformli": [9, 11, 14], "unify_format": [0, 4], "union": [5, 7], "unionfind": [5, 7], "uniqu": 14, "unittest_util": [0, 16], "unknown": 11, "unless": 3, "unspoken": 11, "until": 14, "up": [3, 11, 14], "updat": [0, 2, 14], "update_arg": [0, 3], "update_ds_cache_dir_and_related_var": [0, 2], "update_fingerprint": [0, 14], "update_op_attr": [0, 2], "update_op_process": [0, 2], "upper": 12, "upper_percentil": 12, "upper_rank": 12, "uri": 3, "url": [6, 11, 14], "us": [1, 2, 3, 4, 5, 7, 8, 9, 11, 14, 15], "usabl": 3, "use_cuda": [0, 5, 14], "use_words_aug": [7, 9], "useless": 11, "user": 3, "user_prompt": 11, "user_prompt_kei": 11, "usual": [3, 9], "util": [0, 3, 9, 16], "util_th": 3, "v1": 11, "v2": 9, "val": 14, "valid": [1, 3, 14], "valu": [2, 3, 5, 8, 9, 10, 11, 12, 14], "var": [5, 8, 9, 14], "variabl": [2, 14], "varianc": 14, "variant": 11, "variou": 14, "vb": 4, "verb": 1, "version": [3, 11, 14], "vertic": [9, 11], "vertical_flip": [9, 11], "vid_cap_from_frm_arg": 11, "vid_cap_from_vid_arg": 11, "vid_tag_from_aud_arg": 11, "vid_tag_from_frm_arg": 11, "video": [0, 5, 8, 9, 11, 14], "video_aesthetic_scor": [0, 14], "video_aesthetics_filt": [0, 5, 15], "video_aspect_ratio": [0, 14], "video_aspect_ratio_filt": [0, 5, 15], "video_audio_tag": [0, 14], "video_captioning_from_audio_mapp": [0, 5, 15], "video_captioning_from_frames_mapp": [0, 5, 15], "video_captioning_from_summarizer_mapp": [0, 5, 15], "video_captioning_from_video_mapp": [0, 5, 15], "video_dedupl": [0, 5, 15], "video_dur": [0, 14], "video_duration_filt": [0, 5, 15], "video_extract_frames_mapp": [0, 5, 15], "video_face_blur_mapp": [0, 5, 15], "video_ffmpeg_wrapped_mapp": [0, 5, 15], "video_fram": [0, 14], "video_frame_tag": [0, 14], "video_frames_aesthetics_scor": [0, 14], "video_frames_text_similar": [0, 14], "video_frames_text_similarity_filt": [0, 5, 15], "video_height": [0, 14], "video_kei": [5, 11], "video_key_1": 11, "video_key_1_filenam": 11, "video_key_2": 11, "video_key_2_filenam": 11, "video_manag": 11, "video_motion_scor": [0, 14], "video_motion_score_filt": [0, 5, 15], "video_motion_score_raft_filt": [0, 5, 15], "video_nsfw_filt": [0, 5, 15], "video_nsfw_scor": [0, 14], "video_ocr_area_ratio": [0, 14], "video_ocr_area_ratio_filt": [0, 5, 15], "video_remove_watermark_mapp": [0, 5, 15], "video_resize_aspect_ratio_mapp": [0, 5, 15], "video_resize_resolution_mapp": [0, 5, 15], "video_resolution_filt": [0, 5, 15], "video_split_by_duration_mapp": [0, 5, 15], "video_split_by_key_frame_mapp": [0, 5, 15], "video_split_by_scene_mapp": [0, 5, 15], "video_stream_index": 14, "video_tagging_from_audio_mapp": [0, 5, 15], "video_tagging_from_frames_filt": [0, 5, 15], "video_tagging_from_frames_mapp": [0, 5, 15], "video_watermark_filt": [0, 5, 15], "video_watermark_prob": [0, 14], "video_width": [0, 14], "videoaestheticsfilt": [5, 9], "videoaspectratiofilt": [5, 9], "videocaptioningfromaudiomapp": [5, 11], "videocaptioningfromframesmapp": [5, 11], "videocaptioningfromsummarizermapp": [5, 11], "videocaptioningfromvideomapp": [5, 11], "videocaptur": [5, 9], "videodedupl": [5, 8], "videodurationfilt": [5, 9], "videoextractframesmapp": [5, 11], "videofaceblurmapp": [5, 11], "videoffmpegwrappedmapp": [5, 11], "videoframestextsimilarityfilt": [5, 9], "videohash": [0, 14], "videomotionscorefilt": [5, 9], "videomotionscoreraftfilt": [5, 9], "videonsfwfilt": [5, 9], "videoocrarearatiofilt": [5, 9], "videoremovewatermarkmapp": [5, 11], "videoresizeaspectratiomapp": [5, 11], "videoresizeresolutionmapp": [5, 11], "videoresolutionfilt": [5, 9], "videosplitbydurationmapp": [5, 11], "videosplitbykeyframemapp": [5, 11], "videosplitbyscenemapp": [5, 11], "videotaggingfromaudiomapp": [5, 11], "videotaggingfromframesfilt": [5, 9], "videotaggingfromframesmapp": [5, 11], "videowatermarkfilt": [5, 9], "vietnames": [7, 9], "vision": [9, 11], "visison": 11, "vit": 9, "vllm": 11, "voic": 11, "w": [9, 11], "w1": 4, "w2": 4, "w3": 4, "wa": [3, 11, 14], "wai": [7, 11], "watch": 11, "watermark": [9, 11], "watermark_detector": 9, "we": [1, 3, 4, 8, 9, 11, 14, 15], "weight": [4, 8, 11], "well": 11, "were": 11, "what": [9, 11], "whatev": 11, "when": [1, 3, 4, 5, 6, 8, 9, 11, 12, 14], "where": [3, 11], "whether": [1, 2, 3, 4, 5, 7, 8, 9, 11, 14], "which": [1, 2, 3, 5, 8, 9, 11, 14], "which_entri": 2, "while": 9, "whitespac": [8, 11], "whitespace_charact": 11, "whitespace_normalization_mapp": [0, 5, 15], "whitespacenormalizationmapp": [5, 11], "who": 11, "whole": [1, 9, 11], "whose": [2, 9, 11, 14], "why": 11, "width": [9, 11, 14], "wight": [11, 14], "wiki": [1, 11], "wikipedia": [1, 11], "wills": 11, "window": [1, 8], "window_s": 8, "window_width": 11, "wise": 3, "within": [9, 11, 12, 14], "without": [6, 7, 11], "won": [3, 8, 14], "word": [0, 7, 9, 11, 14], "word_limit": 6, "word_rep_ratio": [0, 14], "word_repetition_filt": [0, 5, 15], "wordless": 11, "wordrepetitionfilt": [5, 9], "words_aug_group_s": [7, 9], "words_aug_join_char": [7, 9], "words_augment": [5, 7], "words_dir": 14, "words_num_filt": [0, 5, 15], "words_refin": [5, 7], "words_typ": 14, "wordsnumfilt": [5, 9], "work": [2, 3, 9, 11, 14], "work_dir": 3, "worker": [3, 14], "workload": 3, "would": 11, "wrap": [3, 14], "wrap_func_with_nested_access": [0, 3], "wrapper": 11, "write": [0, 11, 14], "written": 14, "www": 9, "x": [1, 7], "x1": [11, 14], "x2": [11, 14], "xinyu1205": 9, "xlabel": 1, "xml": [4, 9, 11], "xxx": 3, "xyz": 14, "xyz_process": 14, "y": [1, 7], "y1": [11, 14], "y2": [11, 14], "yaml": [2, 11], "ye": 11, "ylabel": 1, "ylabl": 1, "yml": 2, "you": 11, "your": 11, "youth": 11, "z": [6, 11], "zh": [7, 9, 14], "zsh": 4, "zst": 4, "zstd": 14, "zstdcompressor": [0, 14], "\u4e00\u573a\u8715\u53d8\u5df2\u7ecf\u5f00\u59cb": 11, "\u4e00\u79cd\u65b0\u7684\u51b3\u5fc3": 11, "\u4e00\u80a1\u4e0d\u7965\u7684\u6c14\u606f\u7b3c\u7f69\u7740\u4ed6\u4eec": 11, "\u4e00\u81f4": 11, "\u4e0b\u9762\u662f\u4e00\u4e2a\u4f8b\u5b50\u5e2e\u52a9\u7406\u89e3\u8fd9\u4e00\u8fc7\u7a0b": 11, "\u4e0d\u4e00\u5b9a\u8981\u5c40\u9650\u4e8e\u8f93\u5165": 11, "\u4e0d\u518d\u4ec5\u4ec5\u662f\u89c2\u5bdf\u548c\u62a5\u544a": 11, "\u4e0d\u7528\u5305\u542b\u4e0e": 6, "\u4e0d\u80fd\u4e0e\u8f93\u5165\u7684": 11, "\u4e0d\u8981\u5305\u542b\u4e3b\u89c2\u770b\u6cd5": [6, 11], "\u4e0d\u8981\u641e\u53cd\u4e86": 11, "\u4e0d\u8981\u6dfb\u52a0\u6587\u672c\u4e2d\u6ca1\u6709\u7684\u60c5\u8282": 11, "\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u591a\u4f59\u5185\u5bb9": 11, "\u4e0d\u8981\u8f93\u51fa\u591a\u4f59\u5185\u5bb9": 11, "\u4e0d\u8981\u9057\u6f0f\u60c5\u8282\u7684\u4e3b\u8981\u4eba\u7269": 11, "\u4e0e": 6, "\u4e14\u4ecd\u53ef\u4ee5\u56de\u7b54\u539f\u95ee\u9898": 11, "\u4e14\u4ecd\u53ef\u4ee5\u7531\u539f\u7b54\u6848\u56de\u7b54": 11, "\u4e3a\u540c\u4e00": 6, "\u4e4b\u524d": 11, "\u4e4b\u95f4\u7684\u5173\u7cfb": 11, "\u4e5f\u53ef\u4ee5\u662f\u591a\u8f6e": 11, "\u4e5f\u6df1\u523b\u53cd\u6620\u4e86\u4eba\u7269\u7684\u6027\u683c\u7279\u70b9\u548c\u547d\u8fd0\u8d70\u5411": 11, "\u4e66\u4e2d\u901a\u8fc7\u590d\u6742\u7684\u4eba\u7269\u5173\u7cfb\u5c55\u73b0\u4e86\u5c01\u5efa\u793e\u4f1a\u7684\u5404\u79cd\u77db\u76fe\u51b2\u7a81": 11, "\u4e8b\u5b9e\u6027": 11, "\u4eb2\u751f\u7236\u6bcd\u672a\u77e5": 6, "\u4eba\u7269": 11, "\u4eba\u72691": 11, "\u4eba\u72692": [6, 11], "\u4eba\u72693": [6, 11], "\u4eba\u7269\u8eab\u4efd": 11, "\u4ece\u6587\u672c\u4e2d\u603b\u7ed3": 11, "\u4ece\u88ab\u52a8\u63a5\u53d7\u8005\u8f6c\u53d8\u4e3a\u79ef\u6781\u53c2\u4e0e\u8005": 11, "\u4ed6\u4eec\u5728\u63a5\u4e0b\u6765\u51e0\u4e2a\u5c0f\u65f6\u5185\u505a\u51fa\u7684\u51b3\u5b9a\u53ef\u80fd\u4f1a\u91cd\u65b0\u5b9a\u4e49\u4eba\u7c7b\u5728\u5b87\u5b99\u4e2d\u7684\u4f4d\u7f6e": 11, "\u4ed6\u4eec\u5df2\u6210\u4e3a\u67d0\u4e2a\u8d85\u8d8a\u661f\u8fb0\u4e0e\u6761\u7eb9\u7684\u9886\u57df\u7684\u4fe1\u606f\u5b88\u62a4\u8005": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f55": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f551": 11, "\u4ee3\u8868\u6027\u793a\u4f8b\u6458\u5f552": 11, "\u4ee5\u4e0b\u662f\u539f\u59cb\u95ee\u7b54\u5bf9": 11, "\u4ee5\u5185\u7684\u6837\u4f8b\u5982\u4e0b": 6, "\u4ee5\u53ca\u5bf9\u539f\u6587\u67d0\u4e2a\u90e8\u5206\u7684\u7b80\u77ed\u63cf\u8ff0\u6216\u603b\u7ed3": 11, "\u4efb\u52a1": 11, "\u4efb\u52a1\u6f14\u53d8": 11, "\u4f18\u5316\u95ee\u7b54\u5bf9\u4e2d\u7684": 11, "\u4f46\u4ecd\u53ef\u4ee5\u56de\u7b54\u539f\u95ee\u9898": 11, "\u4f46\u4ecd\u53ef\u4ee5\u7531\u539f\u7b54\u6848\u56de\u7b54": 11, "\u4f46\u4ecd\u7136\u9700\u8981\u7b26\u5408\u4e8b\u5b9e": 11, "\u4f46\u662f\u9700\u8981\u4fdd\u6301\u683c\u5f0f\u76f8\u540c": 11, "\u4f60\u597d": 11, "\u4f60\u5c06\u626e\u6f14\u4e00\u4e2a\u6587\u672c\u6458\u5f55\u52a9\u624b\u7684\u89d2\u8272": 11, "\u4f60\u7684\u4e3b\u8981\u4efb\u52a1\u662f\u57fa\u4e8e\u7ed9\u5b9a\u7684\u6587\u7ae0": 11, "\u4f60\u7684\u4efb\u52a1\u662f\u5c06\u4eba\u7269\u4e4b\u95f4\u7684\u79f0\u547c\u65b9\u5f0f": 11, "\u4f60\u7684\u4efb\u52a1\u662f\u6839\u636e\u53c2\u8003\u4fe1\u606f\u4fee\u6539\u95ee\u7b54\u5bf9\u4e2d\u7684\u56de\u7b54": 11, "\u4f60\u7684\u8fd4\u56de\u683c\u5f0f\u5982\u4e0b": 6, "\u4f60\u9700\u8981\u5c3d\u53ef\u80fd\u7cbe\u786e\u5730\u5339\u914d\u5230\u6700\u7b26\u5408\u603b\u7ed3\u5185\u5bb9\u7684\u90a3\u90e8\u5206\u5185\u5bb9": 11, "\u4f7f": 11, "\u4f7f\u5176\u66f4\u52a0\u8be6\u7ec6": 11, "\u4f8b\u5982": 6, "\u4f9d\u65e7\u9003\u4e0d\u8fc7\u91d1\u775b\u706b\u773c": 6, "\u5173\u4e8e": 11, "\u5173\u7cfb\u7528\u4e00\u4e2a\u6216\u591a\u4e2a\u8bcd\u8bed\u8868\u793a": 11, "\u5173\u8054\u5ea6\u7684\u5206\u6790": 6, "\u5176\u4e2d\u5173\u4e8e\u8d3e\u5e9c\u5185\u90e8\u6597\u4e89\u7684\u90e8\u5206\u5c24\u5176\u7cbe\u5f69": 11, "\u51b0\u5c9b\u7684\u9996\u90fd\u662f\u54ea\u91cc\u5462": 11, "\u51b0\u5c9b\u7684\u9996\u90fd\u662f\u96f7\u514b\u96c5\u672a\u514b": 11, "\u51b3\u7b56": 11, "\u51b3\u7b56\u5236\u5b9a": 11, "\u51c6\u786e": 11, "\u51c6\u786e\u5730\u8bc6\u522b\u5e76\u63d0\u53d6\u51fa\u4e0e\u8be5\u603b\u7ed3\u76f8\u5bf9\u5e94\u7684\u539f\u6587\u7247\u6bb5": 11, "\u51fa\u8eab\u80cc\u666f": 6, "\u5206\u6790": 6, "\u5206\u6790\u63a8\u7406": 11, "\u5217\u8868": 6, "\u5219\u4ee5\u4ed6\u4eec\u5927\u80c6\u7684\u65b0\u9891\u7387\u9707\u52a8": 11, "\u5224\u65ad": 11, "\u534e\u76db\u987f": 11, "\u534e\u76db\u987f\u662f\u6b63\u5728\u63a5\u6536\u901a\u8baf\u7684\u5730\u65b9": 11, "\u539f\u56e0": 11, "\u539f\u6587": 11, "\u539f\u6587\u6458\u5f55": 11, "\u53c2\u8003\u4fe1\u606f": 11, "\u53c2\u8003\u5982\u4e0b\u6837\u4f8b": 6, "\u53c8\u88ab\u609f\u7a7a\u51fb\u6bd9": 6, "\u53e6\u4e00\u4e2a\u8eab\u4efd": 11, "\u53ea\u5bf9\u6587\u6863\u4e2d\u4e0e": 6, "\u53ea\u62bd\u53d6\u60c5\u8282\u4e2d\u7684\u4e3b\u8981\u4eba\u7269": 11, "\u53ea\u8f93\u51fa\u4f18\u5316\u540e\u7684": 11, "\u53ea\u8f93\u51fa\u4f18\u5316\u540e\u7684\u56de\u7b54": 11, "\u53ea\u8f93\u51fa\u6587\u6863\u603b\u7ed3\u4e0d\u8981\u8f93\u51fa\u5176\u4ed6\u5185\u5bb9": 6, "\u53ea\u8f93\u51fa\u6821\u51c6\u540e\u7684\u56de\u7b54": 11, "\u53ea\u8f93\u51fa\u6821\u51c6\u540e\u7684\u95ee\u9898": 11, "\u53ef\u80fd\u662f\u591a\u8f6e\u5bf9\u8bdd": 11, "\u548c": 11, "\u5510\u50e7\u660e\u767d\u4e86\u81ea\u5df1\u7684\u8bef\u89e3": 6, "\u5510\u50e7\u8d23\u602a\u609f\u7a7a": 6, "\u56de\u7b54": 11, "\u56e2\u961f": 11, "\u56e2\u961f\u6536\u5230\u6765\u81ea\u534e\u76db\u987f\u7684\u901a\u8baf": 11, "\u56e2\u961f\u7684\u4efb\u52a1\u5df2\u7ecf\u6f14\u53d8": 11, "\u56e2\u961f\u76f4\u63a5\u53c2\u4e0e\u675c\u5c14\u585e\u884c\u52a8": 11, "\u56e2\u961f\u7ad9\u7acb\u7740": 11, "\u56e2\u961f\u88ab\u63cf\u7ed8\u6210\u4e00\u7fa4\u4ece\u88ab\u52a8\u89c2\u5bdf\u8005\u8f6c\u53d8\u4e3a\u79ef\u6781\u53c2\u4e0e\u8005\u7684\u4eba": 11, "\u5728\u89c2\u97f3\u83e9\u8428\u7684\u5e2e\u52a9\u4e0b": 6, "\u5728\u8bed\u8a00\u98ce\u683c": 11, "\u5730\u70b9": 11, "\u5916\u90e8\u5f71\u54cd": 11, "\u5982\u679c\u4e24\u4e2a\u4eba\u7269\u8eab\u4efd\u662f\u540c\u4e00\u4e2a\u4eba": 11, "\u5982\u679c\u5b58\u5728\u591a\u4e2a\u53ef\u80fd\u7684\u7b54\u6848": 11, "\u5b57\u4ee5\u5185": 6, "\u5b57\u6570\u9650\u5236\u5728": 6, "\u5b59\u609f\u7a7a": 6, "\u5b83\u8bb2\u8ff0\u4e86\u8d3e\u5b9d\u7389": 11, "\u5b83\u9700\u8981\u4e00\u79cd\u65b0\u7684\u89c6\u89d2": 11, "\u5b87\u5b99\u610f\u4e49": 11, "\u5bf9": 11, "\u5bf9\u6587\u672c\u7684\u60c5\u8282\u8fdb\u884c\u5206\u70b9\u603b\u7ed3": 11, "\u5bf9\u8bdd\u4e2d\u7684\u7d27\u5f20\u60c5\u7eea\u901a\u8fc7\u561f\u561f\u58f0\u548c\u9759\u7535\u566a\u97f3\u8d2f\u7a7f\u59cb\u7ec8": 11, "\u5bf9\u95ee\u7b54\u5bf9\u4e2d\u7684": 11, "\u5c06\u5176\u66f4\u52a0\u8be6\u7ec6\u5177\u4f53": 11, "\u5c06\u8fd9\u4e9b\u6587\u6863\u6574\u5408\u6210\u4e00\u4e2a\u6587\u6863\u603b\u7ed3": 6, "\u5c0f\u7ec4\u5f00\u59cb\u5904\u7406\u9010\u6e10\u6210\u5f62\u7684\u8b66\u544a": 11, "\u5c3d\u91cf\u4e0d\u8981\u9057\u6f0f\u5185\u5bb9": 11, "\u5c3d\u91cf\u4f7f\u7528\u539f\u6587\u4e13\u6709\u540d\u8bcd": 6, "\u5c55\u793a\u4e86\u4ed6\u4eec\u89d2\u8272\u7684\u52a8\u6001\u53d8\u5316": 11, "\u5e08\u5085\u66f4\u52a0\u4e0d\u6ee1": 6, "\u5e08\u7236\u662f\u5510\u50e7\u7384\u5958": 6, "\u5e76\u4e14\u4ece\u539f\u6587\u6458\u5f55\u6700\u80fd\u8bf4\u660e\u8be5": 11, "\u5e76\u62bd\u53d6\u4e0e\u60c5\u8282\u76f8\u5173\u7684\u4eba\u7269": 11, "\u5fc5\u8981\u65f6\u53ef\u4ee5\u52a0\u4e00\u4e2a\u5f62\u5bb9\u8bcd\u6765\u63cf\u8ff0\u8fd9\u6bb5\u5173\u7cfb": 11, "\u5fc5\u987b\u6210\u5bf9\u51fa\u73b0": 11, "\u5fc5\u987b\u6309\u7167\u4ee5\u4e0b\u6807\u8bb0\u683c\u5f0f": 11, "\u5fc5\u987b\u6309\u7167\u4ee5\u4e0b\u6807\u8bb0\u683c\u5f0f\u8f93\u51fa": 11, "\u5ff5\u7d27\u7b8d\u5492\u60e9\u7f5a": 6, "\u603b\u7ed3": [6, 11], "\u603b\u7ed3\u4e00\u4e9b\u4e0e": 6, "\u603b\u7ed3\u51fa\u76f8\u5e94\u89c4\u77e9": 11, "\u603b\u7ed3\u683c\u5f0f\u5982\u4e0b": 11, "\u603b\u7ed3\u7684\u957f\u5ea6\u4e0e\u6587\u6863\u788e\u7247\u7684\u5e73\u5747\u957f\u5ea6\u57fa\u672c\u4e00\u81f4": 6, "\u609f\u7a7a\u5c61\u6b21\u8bc6\u7834\u51fb\u6bd9\u5996\u602a\u5374\u906d\u8bef\u89e3": 6, "\u60c5\u8282": 11, "\u60c5\u82821": 11, "\u60c5\u82822": 11, "\u60c5\u82823": 11, "\u60c5\u8282\u63cf\u8ff0": 11, "\u6216\u8005\u5c06\u4ed6\u4eec\u7f6e\u4e8e\u65e0\u77e5\u548c\u6f5c\u5728\u5371\u9669\u4e4b\u4e2d": 11, "\u6240\u4ee5": 11, "\u6267\u884c\u5176\u6f14\u53d8\u540e\u7684\u76ee\u6807\u548c\u6d3b\u52a8": 11, "\u6280\u672f": 11, "\u6309\u7167\u4f60\u7684\u7406\u89e3": 11, "\u63d0\u4f9b\u7684": 11, "\u63d0\u53d6\u51fa\u6765": 11, "\u6458\u5f55\u7684\u793a\u4f8b\u5e94\u8be5\u7b80\u77ed": 11, "\u6587\u672c": 11, "\u6587\u6863\u788e\u7247": 6, "\u65b0\u751f\u6210\u7684": 11, "\u662f": 11, "\u662f\u4e2d\u56fd\u53e4\u5178\u5c0f\u8bf4\u56db\u5927\u540d\u8457\u4e4b\u4e00": 11, "\u6635\u79f0": 11, "\u663e\u7136": 11, "\u663e\u793a\u51fa\u76ee\u6807\u548c\u6d3b\u52a8\u7684\u91cd\u5927\u8f6c\u53d8": 11, "\u66fe\u62dc\u83e9\u63d0\u7956\u5e08\u5b66\u827a": 6, "\u6700\u4e3a\u76f8\u5173\u7684": 6, "\u6700\u6015\u89c2\u4e16\u97f3\u83e9\u8428\u548c\u7d27\u7b8d\u5492": 6, "\u6700\u76f8\u5173\u7684\u4e00\u4e9b": 6, "\u6700\u7ec8\u89c2\u97f3\u76f8\u52a9\u771f\u76f8\u5927\u767d": 6, "\u6709\u5173\u7684\u5185\u5bb9\u8fdb\u884c\u603b\u7ed3": 6, "\u675c\u5c14\u585e\u884c\u52a8": 11, "\u675c\u5c14\u585e\u884c\u52a8\u88ab\u63cf\u8ff0\u4e3a\u4e00\u9879\u5df2\u6f14\u53d8\u4e3a\u4e92\u52a8\u548c\u51c6\u5907\u7684\u4efb\u52a1": 11, "\u6797\u9edb\u7389\u7b49\u4eba\u7684\u7231\u60c5\u6545\u4e8b\u53ca\u56db\u5927\u5bb6\u65cf\u7684\u5174\u8870\u5386\u7a0b": 11, "\u6839\u636e\u63d0\u4f9b\u7684\u4fe1\u606f": 11, "\u6839\u636e\u76f8\u5173\u6587\u6863\u603b\u7ed3": 6, "\u6885\u745f\u540e\u6765\u7684\u76f4\u89c9\u5360\u636e\u4e86\u4e0a\u98ce": 11, "\u6b64\u5916": 11, "\u6ce8\u610f": 11, "\u6ce8\u610f\u76f8\u5173\u4eba\u7269\u9700\u8981\u5728\u5bf9\u5e94\u60c5\u8282\u4e2d\u51fa\u73b0": 11, "\u6ce8\u610f\u8981\u5c3d\u53ef\u80fd\u4fdd\u7559\u6587\u672c\u7684\u4e13\u6709\u540d\u8bcd": [6, 11], "\u6ce8\u610f\u8f93\u51fa\u7684\u662f": 11, "\u7136\u540e\u5199\u51fa\u4e00\u4e2a\u65b0\u7684": 11, "\u7279\u522b\u662f\u738b\u7199\u51e4\u4e0e\u5c24\u4e8c\u59d0\u4e4b\u95f4\u7684\u4e89\u6597": 11, "\u751f\u52a8\u63cf\u7ed8\u4e86\u6743\u529b\u4e89\u593a\u4e0b\u7684\u5973\u6027\u5f62\u8c61": 11, "\u751f\u6210\u7684": 11, "\u7531\u6e05\u4ee3\u4f5c\u5bb6\u66f9\u96ea\u82b9\u521b\u4f5c": 11, "\u7684": [6, 11], "\u7684\u4ec0\u4e48\u5173\u7cfb": 11, "\u7684\u4ee3\u8868\u6027\u793a\u4f8b": 11, "\u7684\u6587\u672c\u4fe1\u606f": 11, "\u7684\u6635\u79f0": 11, "\u7684\u76f8\u5173\u6587\u6863": 6, "\u7684\u8bdd\u9898\u6216\u9886\u57df": 11, "\u76f4\u63a5\u8f93\u51fa\u4f18\u5316\u540e\u7684\u95ee\u7b54\u5bf9": 11, "\u76f8\u5173\u4eba\u7269": 11, "\u76f8\u5173\u7684\u4e00\u4e9b\u6587\u6863": 6, "\u76f8\u540c\u7684\u8bf4\u8bdd\u4eba\u548c\u88ab\u79f0\u547c\u4eba\u6700\u591a\u7ed9\u51fa\u4e00\u4e2a\u6700\u5e38\u7528\u7684\u79f0\u547c": 11, "\u771f\u76f8\u5927\u767d": 6, "\u79ef\u6781\u53c2\u4e0e": 11, "\u79f0\u4e3a": 11, "\u79f0\u547c\u65b9\u5f0f": 11, "\u79f0\u547c\u65b9\u5f0f1": 11, "\u79f0\u547c\u65b9\u5f0f2": 11, "\u79f0\u547c\u65b9\u5f0f3": 11, "\u7acb\u573a\u7b49\u4efb\u4e00\u65b9\u9762\u4e0e\u539f\u56de\u7b54\u76f8\u53cd": 11, "\u7b26\u5408\u539f\u6587\u4e8b\u5b9e": 11, "\u7ea2\u697c\u68a6": 11, "\u7ec4\u7ec7": 11, "\u7ed9\u5b9a\u4e00\u4e9b\u6587\u6863\u788e\u7247": 6, "\u7ed9\u5b9a\u4e00\u6bb5\u6587\u672c": 11, "\u7ed9\u5b9a\u4e0e": 6, "\u7ed9\u5b9a\u4f60\u4e00\u6bb5\u6587\u672c": 11, "\u7ed9\u5b9a\u5173\u4e8e": 11, "\u800c": 11, "\u800c\u4e0d\u662f": 11, "\u800c\u4e14": 11, "\u800c\u662f\u4e92\u52a8\u548c\u51c6\u5907": 11, "\u8054\u7cfb\u4e0a\u4e0b\u6587": 6, "\u8054\u7cfb\u4e0a\u4e0b\u6587\u8bf4\u660e\u524d\u56e0\u540e\u679c": 11, "\u81ea\u52a8\u5ffd\u7565\u4e0a\u4e0b\u6587\u4e0d\u4e00\u81f4\u7684\u7ec6\u8282\u9519\u8bef": 6, "\u81ea\u77f3\u5934\u4e2d\u5b55\u80b2\u800c\u751f": 6, "\u81ea\u8ba4\u6597\u6218\u80dc\u4f5b": 6, "\u82b1\u679c\u5c71\u6c34\u5e18\u6d1e\u7684\u7f8e\u7334\u738b": 6, "\u8499\u53e4\u56fd\u7684\u9996\u90fd\u662f\u4e4c\u5170\u5df4\u6258": 11, "\u8868\u660e\u5176\u5728\u51b3\u7b56\u8fc7\u7a0b\u4e2d\u7684\u91cd\u8981\u6027": 11, "\u88ab\u5b59\u609f\u7a7a\u8bc6\u7834\u6253\u6b7b": 6, "\u88ab\u79f0\u547c\u4eba": 11, "\u897f\u884c\u53d6\u7ecf\u961f\u4f0d\u4e2d\u7684\u5927\u5e08\u5144": 6, "\u8981\u6c42\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 6, "\u8bf4\u8bdd\u4eba": 11, "\u8bf7\u4e0d\u8981\u8f93\u51fa\u4e92\u76f8\u6ca1\u6709\u6635\u79f0\u7684\u79f0\u547c\u65b9\u5f0f": 11, "\u8bf7\u4f18\u5316\u8f93\u5165\u7684\u95ee\u7b54\u5bf9": 11, "\u8bf7\u4f18\u5316\u95ee\u7b54\u5bf9\u4e2d\u7684\u56de\u7b54": 11, "\u8bf7\u4f60\u4ed4\u7ec6\u89c2\u5bdf\u591a\u4e2a\u793a\u4f8b\u6570\u636e\u7684\u8f93\u5165\u548c\u8f93\u51fa": 11, "\u8bf7\u6309\u7167\u4eba\u7269\u7684\u91cd\u8981\u6027\u8fdb\u884c\u6392\u5e8f": 6, "\u8bf7\u6839\u636e\u63d0\u4f9b\u7684": 11, "\u8bf7\u9009\u62e9\u6700\u8d34\u8fd1\u603b\u7ed3\u610f\u601d\u7684\u90a3\u4e2a": 11, "\u8bf7\u95ee\u8499\u53e4\u56fd\u7684\u9996\u90fd\u662f\u54ea\u91cc": 11, "\u8d8a\u91cd\u8981\u4eba\u7269\u5728\u5217\u8868\u8d8a\u524d\u9762": 6, "\u8f93\u51fa\u5173\u7cfb\u4e3a": 11, "\u8f93\u51fa\u5173\u7cfb\u65f6\u4e0d\u8981\u53c2\u6742\u4efb\u4f55\u6807\u70b9\u7b26\u53f7": 11, "\u8f93\u51fa\u683c\u5f0f\u4e3a": 11, "\u8f93\u51fa\u683c\u5f0f\u5982\u4e0b": 11, "\u8fd8\u4ee5\u5176\u7cbe\u7f8e\u7684\u8bd7\u8bcd\u95fb\u540d": 11, "\u8fd9\u4e00\u4f7f\u547d\u7684\u63d0\u5347\u4e0d\u80fd\u88ab\u89c4\u5219\u548c\u65e2\u5b9a\u534f\u8bae\u6240\u675f\u7f1a": 11, "\u8fd9\u4e9b\u8bd7\u8bcd\u4e0d\u4ec5\u589e\u6dfb\u4e86\u6587\u5b66\u8272\u5f69": 11, "\u8fd9\u5f71\u54cd\u4e86\u4ed6\u4eec\u7684\u51b3\u7b56\u8fc7\u7a0b": 11, "\u8fd9\u79cd\u57fa\u8c03\u4e0d\u662f\u7531\u4e16\u4fd7\u8bbe\u5b9a\u7684": 11, "\u8fd9\u8fb9\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6570\u636e\u5f3a\u589e\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u67095\u79cd\u4e0d\u540c\u7684\u6fd6\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fd9\u91cc\u4e00\u5171\u6709\u4f0d\u79cd\u4e0d\u540c\u7684\u6570\u636e\u589e\u5f3a\u65b9\u6cd5": 11, "\u8fdb\u884c\u6821\u51c6": 11, "\u9047\u4e0a\u4e86\u53d8\u5316\u591a\u7aef\u7684\u767d\u9aa8\u7cbe": 6, "\u9075\u5faa\u5982\u4e0b\u7684\u56de\u590d\u683c\u5f0f": 11, "\u90fd\u66f4\u52a0\u8be6\u7ec6": 11, "\u95ee\u9898": 11, "\u9700\u8981\u4f60\u8fdb\u884c\u5408\u7406\u7684\u63a8\u7406\u624d\u80fd\u5f97\u51fa\u7ed3\u8bba": 11, "\u9700\u8981\u5728": 11, "\u9700\u8981\u6b63\u786e\u56de\u7b54\u751f\u6210\u7684": 11, "\u9700\u8981\u6ee1\u8db3\u5982\u4e0b\u8981\u6c42": 11, "\u9700\u8981\u7ed9\u51fa\u8bf4\u8bdd\u4eba\u5bf9\u88ab\u79f0\u547c\u4eba\u7684\u79f0\u547c": 11}, "titles": ["data_juicer package", "data_juicer.analysis package", "data_juicer.config package", "data_juicer.core package", "data_juicer.format package", "data_juicer.ops package", "data_juicer.ops.aggregator package", "data_juicer.ops.common package", "data_juicer.ops.deduplicator package", "data_juicer.ops.filter package", "data_juicer.ops.grouper package", "data_juicer.ops.mapper package", "data_juicer.ops.selector package", "data_juicer.tools package", "data_juicer.utils package", "Welcome to data-juicer\u2019s documentation!", "data_juicer"], "titleterms": {"": 15, "adapt": 3, "aggreg": 6, "alphanumeric_filt": 9, "analysi": 1, "analyz": 3, "api": 15, "asset_util": 14, "audio_duration_filt": 9, "audio_ffmpeg_wrapped_mapp": 11, "audio_nmf_snr_filt": 9, "audio_size_filt": 9, "auto_install_map": 14, "auto_install_util": 14, "availability_util": 14, "average_line_length_filt": 9, "base_op": 5, "cache_util": 14, "calibrate_qa_mapp": 11, "calibrate_query_mapp": 11, "calibrate_response_mapp": 11, "character_repetition_filt": 9, "chinese_convert_mapp": 11, "ckpt_util": 14, "clean_copyright_mapp": 11, "clean_email_mapp": 11, "clean_html_mapp": 11, "clean_ip_mapp": 11, "clean_links_mapp": 11, "collector": 1, "column_wise_analysi": 1, "common": 7, "common_util": 14, "compress": 14, "config": 2, "constant": 14, "content": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], "core": 3, "csv_formatt": 4, "data": [3, 15], "data_juic": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16], "dedupl": 8, "diversity_analysi": 1, "document": 15, "document_dedupl": 8, "document_minhash_dedupl": 8, "document_simhash_dedupl": 8, "draw": 1, "empty_formatt": 4, "entity_attribute_aggreg": 6, "executor": 3, "expand_macro_mapp": 11, "export": 3, "extract_entity_attribute_mapp": 11, "extract_entity_relation_mapp": 11, "extract_event_mapp": 11, "extract_keyword_mapp": 11, "extract_nickname_mapp": 11, "extract_support_text_mapp": 11, "file_util": 14, "filter": 9, "fingerprint_util": 14, "fix_unicode_mapp": 11, "flagged_words_filt": 9, "format": 4, "formatt": 4, "frequency_specified_field_selector": 12, "generate_qa_from_examples_mapp": 11, "generate_qa_from_text_mapp": 11, "grouper": 10, "helper_func": 7, "image_aesthetics_filt": 9, "image_aspect_ratio_filt": 9, "image_blur_mapp": 11, "image_captioning_from_gpt4v_mapp": 11, "image_captioning_mapp": 11, "image_dedupl": 8, "image_diffusion_mapp": 11, "image_face_blur_mapp": 11, "image_face_count_filt": 9, "image_face_ratio_filt": 9, "image_nsfw_filt": 9, "image_pair_similarity_filt": 9, "image_shape_filt": 9, "image_size_filt": 9, "image_tagging_mapp": 11, "image_text_matching_filt": 9, "image_text_similarity_filt": 9, "image_watermark_filt": 9, "indic": 15, "json_formatt": 4, "juicer": 15, "key_value_group": 10, "language_id_score_filt": 9, "lazy_load": 14, "load": [4, 5], "logger_util": 14, "mapper": 11, "maximum_line_length_filt": 9, "measur": 1, "mixture_formatt": 4, "mm_util": 14, "model_util": 14, "modul": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], "monitor": 3, "most_relavant_entities_aggreg": 6, "naive_group": 10, "nested_aggreg": 6, "nlpaug_en_mapp": 11, "nlpcda_zh_mapp": 11, "op": [5, 6, 7, 8, 9, 10, 11, 12], "op_fus": 5, "optimize_qa_mapp": 11, "optimize_query_mapp": 11, "optimize_response_mapp": 11, "overall_analysi": 1, "packag": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], "pair_preference_mapp": 11, "parquet_formatt": 4, "perplexity_filt": 9, "phrase_grounding_recall_filt": 9, "process_util": 14, "punctuation_normalization_mapp": 11, "python_file_mapp": 11, "python_lambda_mapp": 11, "random_selector": 12, "range_specified_field_selector": 12, "ray_basic_dedupl": 8, "ray_data": 3, "ray_document_dedupl": 8, "ray_executor": 3, "ray_image_dedupl": 8, "ray_video_dedupl": 8, "refer": 15, "registri": 14, "relation_identity_mapp": 11, "remove_bibliography_mapp": 11, "remove_comments_mapp": 11, "remove_header_mapp": 11, "remove_long_words_mapp": 11, "remove_non_chinese_character_mapp": 11, "remove_repeat_sentences_mapp": 11, "remove_specific_chars_mapp": 11, "remove_table_text_mapp": 11, "remove_words_with_incorrect_substrings_mapp": 11, "replace_content_mapp": 11, "resource_util": 14, "selector": 12, "sentence_split_mapp": 11, "special_charact": 7, "special_characters_filt": 9, "specified_field_filt": 9, "specified_numeric_field_filt": 9, "stopwords_filt": 9, "submodul": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14], "subpackag": [0, 5], "suffix_filt": 9, "tabl": 15, "text_action_filt": 9, "text_chunk_mapp": 11, "text_entity_dependency_filt": 9, "text_formatt": 4, "text_length_filt": 9, "token_num_filt": 9, "tool": 13, "topk_specified_field_selector": 12, "tracer": 3, "tsv_formatt": 4, "tutori": 15, "unittest_util": 14, "util": 14, "video_aesthetics_filt": 9, "video_aspect_ratio_filt": 9, "video_captioning_from_audio_mapp": 11, "video_captioning_from_frames_mapp": 11, "video_captioning_from_summarizer_mapp": 11, "video_captioning_from_video_mapp": 11, "video_dedupl": 8, "video_duration_filt": 9, "video_extract_frames_mapp": 11, "video_face_blur_mapp": 11, "video_ffmpeg_wrapped_mapp": 11, "video_frames_text_similarity_filt": 9, "video_motion_score_filt": 9, "video_motion_score_raft_filt": 9, "video_nsfw_filt": 9, "video_ocr_area_ratio_filt": 9, "video_remove_watermark_mapp": 11, "video_resize_aspect_ratio_mapp": 11, "video_resize_resolution_mapp": 11, "video_resolution_filt": 9, "video_split_by_duration_mapp": 11, "video_split_by_key_frame_mapp": 11, "video_split_by_scene_mapp": 11, "video_tagging_from_audio_mapp": 11, "video_tagging_from_frames_filt": 9, "video_tagging_from_frames_mapp": 11, "video_watermark_filt": 9, "welcom": 15, "whitespace_normalization_mapp": 11, "word_repetition_filt": 9, "words_num_filt": 9}})
\ No newline at end of file