作者:ZHENG, Liying | XU, Liang | XIAO, Jing
发明人:ZHENG, Liying | XU, Liang | XIAO, Jing
所有人:PING AN TECHNOLOGY (SHENZHEN) CO., LTD. 年:2022,
语种:英语
公开国家:WO 国家:世界知识产权组织
专利申请号:WOPCT-CN2021-084546 专利申请日期:2021-03-31
公开(公告)号:WO-2022105083-A1 公开日期:2022-05-27
优先权号:CN202011302530-32020-11-19
分类号:G06F-40/232 国际主分类号:G06F-40/232 国际分类号:G06F-40/232 | G06F-40/242
摘要:A text error correction method and apparatus, a device, and a medium, relating to the technical field of artificial intelligence. The method comprises: performing, according to a target dictionary, word segmentation and error word determination on text, corrected by an engine, to obtain first potential error word data; inputting the text corrected by the engine into a pre-training model for replacement probability prediction to obtain a replacement probability prediction result, and determining second potential error word data according to the replacement probability prediction result; determining candidate replacement sentences according to the text corrected by the engine, the first potential error word data, and the second potential error word data to obtain a plurality of candidate replacement sentences to be scored; separately inputting each candidate replacement sentence into a statistical language model for candidate replacement sentence scoring to obtain a plurality of candidate replacement sentence scoring results; and determining a target candidate replacement sentence according to the plurality of candidate replacement sentence scoring results. Thus, both errors within and outside a rule can be recognized, and the precision of text error correction is improved.La présente invention concerne un procédé et un appareil de correction d'erreurs de texte, ainsi qu'un dispositif et un support, qui se rapportent au domaine technique de l'intelligence artificielle. Le procédé consiste à : effectuer, selon un dictionnaire cible, une segmentation de mots et une détermination de mots d'erreur sur un texte, corrigé par un moteur, afin d'obtenir des premières données de mots d'erreur potentielles ; entrer le texte corrigé par le moteur dans un modèle de pré-apprentissage pour une prédiction de probabilité de remplacement afin d'obtenir un résultat de prédiction de probabilité de remplacement, puis déterminer des secondes données de mots d'erreur potentielles en fonction du résultat de prédiction de probabilité de remplacement ; déterminer des phrases de remplacement candidates en fonction du texte corrigé par le moteur, des premières données de mots d'erreur potentielles et des secondes données de mots d'erreur potentielles afin d'obtenir une pluralité de phrases de remplacement candidates à évaluer ; entrer séparément chaque phrase de remplacement candidate dans un modèle de langage statistique pour une évaluation de phrases de remplacement candidate afin d'obtenir une pluralité de résultats d'évaluation de phrases de remplacement candidates ; et déterminer une phrase de remplacement candidate cible en fonction de la pluralité de résultats d'évaluation de phrases de remplacement candidates. Ainsi, les deux erreurs à l'intérieur et à l'extérieur d'une règle peuvent être reconnues, et la précision de correction d'erreur de texte est améliorée.