Tag: 文本分段

在句子边界处拆分文本文件

我必须处理一个文本文件(电子书)。 我想处理它,以便每行有一个句子(“换行符分隔文件”,是吗?)。 如何使用sed UNIX实用程序执行此任务? 它是否具有“句子边界”的符号,如“单词边界”的符号(我认为GNU版本具有该符号)。 请注意,句子可以以句点,省略号,问题或感叹号结尾,最后两个组合(例如,?,!,!?,!!!!!都是有效的“句子终结符”)。 输入文件的格式使得某些句子包含必须删除的换行符。 我想过像s/…|. |[!?]+ |/\n/g这样s/…|. |[!?]+ |/\n/g剧本s/…|. |[!?]+ |/\n/g s/…|. |[!?]+ |/\n/g (未转义为更好的阅读)。 但它并没有从句子中删除换行符。 在C#怎么样? 如果我使用sed中的正则表达式会更快吗? (我想不是)。 还有其他更快的方法吗? 无论哪种方式(sed或C#)都没问题。 谢谢。

一些象形文字语言中的字计数器?

是否有任何可用于某些象形文字语言计数的库(例如:中文,日文,韩文……)? 我发现MS Word可以有效地计算这些语言的文本。 我可以在.NET应用程序中添加对MS Word库的引用来实现此function吗? 或者还有其他解决方案可以达到这个目的吗?

使用C#格式化字符串中的句子

我有一个包含多个句子的字符串。 如何将每个句子中第一个单词的首字母大写。 像单词中的段落格式。 例如,“这是一些代码。代码在C#中。”输出必须是“这是一些代码。代码在C#中”。 一种方法是根据’。’拆分字符串。 然后将第一个字母大写,然后重新加入。 有更好的解决方案吗?