Skip to content

Processors Reference

processors 配置

在导出前按顺序执行的文本处理阶段列表。

典型用途: 正则清理繁简转换 (OpenCC)文本纠错 (pycorrector)文本翻译 (translate) 等。

所有处理器均为可选; 未配置或列表为空时, 不执行文本处理。

内置处理器概览 (简要)

cleaner

用于移除不可见字符、删除不需要的文本片段、进行字面替换 (可作用于标题与正文)。

参数名 类型 默认值 说明
remove_invisible bool true 移除常见不可见字符 (如零宽字符等)
title_removes str - 可选; JSON 文件路径, 内容为字符串数组 (正则), 逐条删除
title_replace str - 可选; JSON 文件路径, 内容为字典 ({"old": "new"}) 逐条替换
content_removes str - 同上, 作用于正文
content_replace str - 同上, 作用于正文
overwrite bool false 若同名阶段已存在, 是否强制重建

*_removes: JSON 数组; *_replace: JSON 对象。

示例

假设配置中写入:

[[general.processors]]
name = "cleaner"
remove_invisible = true
title_removes = "title-remove.json"
content_replace = "content-replace.json"

则需要在相同目录下创建对应 JSON 文件:

title-remove.json

[
  "\\[广告\\]",
  "\\(无弹窗小说网\\)",
  "PS:.*$"
]

content-replace.json

{
  "请记住本书首发网址": "",
  "(本章完)": "",
  "li子": "例子",
  "pinbi词": "屏蔽词"
}

zh_convert

进行简繁体转换, 基于 OpenCC

参数名 类型 默认值 说明
direction str t2s 转换方向 (见下)
apply_title bool true 是否作用于标题
apply_content bool true 是否作用于正文
overwrite bool false 是否强制重建

可选转换方向 (direction):

简写 含义
hk2s 繁体 (香港标准) -> 简体
s2hk 简体 -> 繁体 (香港标准)
s2t 简体 -> 繁体
s2tw 简体 -> 繁体 (台湾标准)
s2twp 简体 -> 繁体 (台湾标准,带词汇转换)
t2hk 繁体 -> 繁体 (香港标准)
t2s 繁体 -> 简体
t2tw 繁体 -> 繁体 (台湾标准)
tw2s 繁体 (台湾标准) -> 简体
tw2sp 繁体 (台湾标准) -> 简体 (带词汇转换)

更多方向及说明见: OpenCC 官方文档

依赖: opencc-python-reimplemented

translator.google

参数名 类型 默认值
source str auto
target str zh-CN
sleep float 2.0
支持语言列表 (点击展开)
语言名称 代码
阿布哈兹语 ab
亚齐语 ace
阿乔利语 ach
阿法尔语 aa
南非荷兰语 af
阿尔巴尼亚语 sq
阿卢尔语 alz
阿姆哈拉语 am
阿拉伯语 ar
亚美尼亚语 hy
阿萨姆语 as
阿瓦尔语 av
阿瓦德语 awa
艾马拉语 ay
阿塞拜疆语 az
巴厘语 ban
俾路支语 bal
班巴拉语 bm
巴乌莱语 bci
巴什基尔语 ba
巴斯克语 eu
巴塔克卡罗语 btx
巴塔克西马隆贡语 bts
巴塔克托巴语 bbc
白俄罗斯语 be
本巴语 bem
孟加拉语 bn
雅加达方言(Betawi) bew
博杰普尔语 bho
比科尔语 bik
波斯尼亚语 bs
布列塔尼语 br
保加利亚语 bg
布里亚特语 bua
粤语 yue
加泰罗尼亚语 ca
宿务语 ceb
查莫罗语 ch
车臣语 ce
齐切瓦语 ny
中文(简体) zh-CN
中文(繁体) zh-TW
楚克语 chk
楚瓦什语 cv
科西嘉语 co
克里米亚鞑靼语 crh
克罗地亚语 hr
捷克语 cs
丹麦语 da
达里语 fa-AF
迪维希语 dv
丁卡语 din
多格拉语 doi
冬贝语 dov
荷兰语 nl
朱拉语(Dyula) dyu
宗卡语 dz
英语 en
世界语 eo
爱沙尼亚语 et
埃维语 ee
法罗语 fo
斐济语 fj
菲律宾语 tl
芬兰语 fi
丰语(Fon) fon
法语 fr
弗里斯兰语 fy
弗留利语 fur
富拉语 ff
加语(Ga) gaa
加利西亚语 gl
格鲁吉亚语 ka
德语 de
希腊语 el
瓜拉尼语 gn
古吉拉特语 gu
海地克里奥尔语 ht
哈卡钦语 cnh
豪萨语 ha
夏威夷语 haw
希伯来语 iw
希利盖农语 hil
印地语 hi
苗族语 hmn
匈牙利语 hu
洪斯里克语 hrx
伊班语 iba
冰岛语 is
伊博语 ig
伊洛卡诺语 ilo
印度尼西亚语 id
爱尔兰语 ga
意大利语 it
牙买加土语 jam
日语 ja
爪哇语 jw
景颇语 kac
格陵兰语 kl
卡纳达语 kn
卡努里语 kr
卡潘潘庞语 pam
哈萨克语 kk
卡西语 kha
高棉语 km
基加语 cgg
基孔戈语 kg
卢旺达语 rw
基图巴语 ktu
科克博罗克语 trp
科米语 kv
孔卡尼语 gom
韩语 ko
克里奥尔语(塞拉利昂) kri
库尔德语(库尔曼吉) ku
库尔德语(索拉尼) ckb
吉尔吉斯语 ky
老挝语 lo
拉脱维亚方言(Latgalian) ltg
拉丁语 la
拉脱维亚语 lv
利古里亚语 lij
林堡语 li
林加拉语 ln
立陶宛语 lt
伦巴第语 lmo
卢干达语 lg
卢奥语 luo
卢森堡语 lb
马其顿语 mk
马都拉语 mad
迈蒂利语 mai
望加锡语 mak
马尔加什语 mg
马来语 ms
马来语(爪夷文) ms-Arab
马拉雅拉姆语 ml
马耳他语 mt
马姆语 mam
曼岛语 gv
毛利语 mi
马拉地语 mr
马绍尔语 mh
马尔瓦里语 mwr
毛里求斯克里奥尔语 mfe
马里语(东部) chm
曼尼普尔语(梅泰文) mni-Mtei
米南加保语 min
米佐语 lus
蒙古语 mn
缅甸语 my
纳瓦特尔语(东瓦斯特卡) nhe
恩道语 ndc-ZW
南恩德贝莱语 nr
尼瓦尔语 new
尼泊尔语 ne
恩科语 bm-Nkoo
挪威语 no
努埃尔语 nus
奥克语 oc
奥里亚语 or
奥罗莫语 om
奥塞梯语 os
邦阿西楠语 pag
帕皮阿门托语 pap
普什图语 ps
波斯语 fa
波兰语 pl
葡萄牙语(巴西) pt
葡萄牙语(葡萄牙) pt-PT
旁遮普语(果鲁穆奇文) pa
旁遮普语(沙姆奇文) pa-Arab
克丘亚语 qu
凯克其语 kek
罗姆语 rom
罗马尼亚语 ro
伦迪语 rn
俄语 ru
萨米语(北部) se
萨摩亚语 sm
桑戈语 sg
梵语 sa
桑塔利语 sat-Latn
苏格兰盖尔语 gd
北索托语 nso
塞尔维亚语 sr
塞索托语 st
塞舌尔克里奥尔语 crs
掸语 shn
修纳语 sn
西西里语 scn
西里西亚语 szl
信德语 sd
僧伽罗语 si
斯洛伐克语 sk
斯洛文尼亚语 sl
索马里语 so
西班牙语 es
巽他语 su
苏苏语 sus
斯瓦希里语 sw
斯瓦蒂语 ss
瑞典语 sv
塔希提语 ty
塔吉克语 tg
柏柏尔语(拉丁) ber-Latn
柏柏尔语(提非纳文) ber
泰米尔语 ta
鞑靼语 tt
泰卢固语 te
德顿语 tet
泰语 th
藏语 bo
提格利尼亚语 ti
提夫语 tiv
巴布亚皮钦语 tpi
汤加语 to
聪加语 ts
茨瓦纳语 tn
图鲁语 tcy
通布卡语 tum
土耳其语 tr
土库曼语 tk
图瓦语 tyv
特威语 ak
乌德穆尔特语 udm
乌克兰语 uk
乌尔都语 ur
维吾尔语 ug
乌兹别克语 uz
文达语 ve
威尼斯语 vec
越南语 vi
瓦莱语(Waray) war
威尔士语 cy
沃洛夫语 wo
科萨语 xh
雅库特语 sah
意第绪语 yi
约鲁巴语 yo
尤卡坦玛雅语 yua
萨波特克语 zap
祖鲁语 zu

translator.edge

参数名 类型 默认值
source str auto
target str zh-Hans
sleep float 1.0
支持语言列表 (点击展开)
语言名称 代码
南非荷兰语 af
阿尔巴尼亚语 sq
阿姆哈拉语 am
阿拉伯语 ar
亚美尼亚语 hy
阿萨姆语 as
阿塞拜疆语(拉丁) az
孟加拉语 bn
巴什基尔语 ba
巴斯克语 eu
波斯尼亚语(拉丁) bs
保加利亚语 bg
粤语(繁体) yue
加泰罗尼亚语 ca
中文(文言文) lzh
中文(简体) zh-Hans
中文(繁体) zh-Hant
克罗地亚语 hr
捷克语 cs
丹麦语 da
达里语 prs
迪维希语 dv
荷兰语 nl
英语 en
爱沙尼亚语 et
法罗语 fo
斐济语 fj
菲律宾语 fil
芬兰语 fi
法语 fr
法语(加拿大) fr-ca
加利西亚语 gl
格鲁吉亚语 ka
德语 de
希腊语 el
古吉拉特语 gu
海地克里奥尔语 ht
希伯来语 he
印地语 hi
苗族语(拉丁) mww
匈牙利语 hu
冰岛语 is
印度尼西亚语 id
伊努因纳克顿语 ikt
因纽特语 iu
因纽特语(拉丁) iu-Latn
爱尔兰语 ga
意大利语 it
日语 ja
卡纳达语 kn
哈萨克语 kk
高棉语 km
克林贡语 tlh-Latn
克林贡语(plqaD) tlh-Piqd
韩语 ko
库尔德语(中部) ku
库尔德语(北部) kmr
吉尔吉斯语(西里尔) ky
老挝语 lo
拉脱维亚语 lv
立陶宛语 lt
马其顿语 mk
马尔加什语 mg
马来语(拉丁) ms
马拉雅拉姆语 ml
马耳他语 mt
毛利语 mi
马拉地语 mr
蒙古语(西里尔) mn-Cyrl
蒙古语(传统) mn-Mong
缅甸语 my
尼泊尔语 ne
挪威语 nb
奥里亚语 or
普什图语 ps
波斯语 fa
波兰语 pl
葡萄牙语(巴西) pt
葡萄牙语(葡萄牙) pt-pt
旁遮普语 pa
克雷塔罗奥托米语 otq
罗马尼亚语 ro
俄语 ru
萨摩亚语(拉丁) sm
塞尔维亚语(西里尔) sr-Cyrl
塞尔维亚语(拉丁) sr-Latn
斯洛伐克语 sk
斯洛文尼亚语 sl
索马里语(阿拉伯) so
西班牙语 es
斯瓦希里语(拉丁) sw
瑞典语 sv
塔希提语 ty
泰米尔语 ta
鞑靼语(拉丁) tt
泰卢固语 te
泰语 th
藏语 bo
提格利尼亚语 ti
汤加语 to
土耳其语 tr
土库曼语(拉丁) tk
乌克兰语 uk
上索布语 hsb
乌尔都语 ur
维吾尔语(阿拉伯) ug
乌兹别克语(拉丁) uz
越南语 vi
威尔士语 cy
尤卡坦玛雅语 yua
祖鲁语 zu

translator.youdao

参数名 类型 默认值
source str auto
target str zh-CHS
sleep float 1.0
支持语言列表 (点击展开)
语言名称 代码
自动识别 auto
阿尔巴尼亚语 sq
爱尔兰语 ga
爱沙尼亚语 et
阿拉伯语 ar
阿姆哈拉语 am
阿塞拜疆语 az
白俄罗斯语 be
保加利亚语 bg
巴斯克语 eu
冰岛语 is
波兰语 pl
波斯尼亚语(拉丁语) bs-Latn
波斯语 fa
丹麦语 da
德语 de
俄语 ru
法语 fr
菲律宾语 tl
芬兰语 fi
弗里斯兰语 fy
高棉语 km
格鲁吉亚语 ka
古吉拉特语 gu
海地语 ht
韩语 ko
豪萨语 ha
哈萨克语 kk
荷兰语 nl
加利西亚语 gl
加泰罗尼亚语 ca
捷克语 cs
吉尔吉斯斯坦语 ky
卡纳达语 kn
克林贡语 tlh
克罗地亚语 hr
克洛塔罗乙巳语 otq
科西嘉语 co
库尔德语 ku
拉丁语 la
老挝语 lo
拉脱维亚语 lv
立陶宛语 lt
罗马尼亚语 ro
卢森堡语 lb
马尔加什语 mg
马耳他语 mt
马拉地语 mr
马来语 ms
马拉雅拉姆语 ml
毛利语 mi
马其顿语 mk
蒙古语 mn
孟加拉语 bn
缅甸语 my
苗族昂山土语 mww
苗族语 hmn
南非科萨语 xh
南非祖鲁语 zu
尼泊尔语 ne
挪威语 no
旁遮普语 pa
普什图语 ps
葡萄牙语 pt
齐切瓦语 ny
日语 ja
瑞典语 sv
塞尔维亚语(拉丁语) sr-Latn
塞尔维亚语(西里尔) sr-Cyrl
塞索托语 st
萨摩亚语 sm
僧伽罗语 si
世界语 eo
斯洛伐克语 sk
斯洛文尼亚语 sl
斯瓦希里语 sw
苏格兰盖尔语 gd
索马里语 so
宿务语 ceb
泰卢固语 te
泰米尔语 ta
泰语 th
塔吉克语 tg
土耳其语 tr
威尔士语 cy
文言文 zh-lzh
乌尔都语 ur
乌克兰语 uk
乌兹别克语 uz
夏威夷语 haw
西班牙语 es
希伯来语 he
希腊语 el
信德语 sd
匈牙利语 hu
修纳语 sn
亚美尼亚语 hy
伊博语 ig
意大利语 it
意第绪语 yi
印地语 hi
印度尼西亚语 id
英语 en
印尼巽他语 su
印尼爪哇语 jw
尤卡坦玛雅语 yua
约鲁巴语 yo
越南语 vi
中文 zh-CHS
中文(繁体) zh-CHT

corrector

中文文本纠错, 基于 pycorrector

可选择多种纠错引擎, 如 kenlmmacbertt5ernie_cscgptmucgec_bart 等。

注意: 小说文本上纠错效果受模型影响较大, 通常不佳。

参数名 类型 默认值 说明
engine str "kenlm" 纠错引擎类型
apply_title bool true 是否作用于标题
apply_content bool true 是否作用于正文
apply_author bool false 是否作用于作者名
apply_tags bool false 是否作用于标签
skip_if_len_le int None None
overwrite bool false 是否强制重建

依赖: pycorrector 及对应模型; 首次加载可能较慢。

各引擎的参数说明与官方文档参见下表。

各引擎支持与参数

引擎 Key 说明 文档链接 额外参数
kenlm 基于统计语言模型的中文纠错 kenlm 模型(统计模型) language_model_path, custom_confusion_path_or_dict, proper_name_path, common_char_path, same_pinyin_path, same_stroke_path
macbert 基于 Transformer 的拼写纠错模型 MacBERT 模型 model_name_or_path
t5 T5 架构的中文纠错模型 T5 模型 model_name_or_path
ernie_csc 基于 ERNIE 的中文纠错模型 ErnieCSC 模型 model_name_or_path
gpt 基于 ChatGLM / Qwen 等大模型的纠错 GPT 模型 model_name_or_path, model_type, peft_name
mucgec_bart Bart 架构的中文纠错模型 Bart / MuCGEC Bart 模型 model_name_or_path