专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

大模型数据工程之面向特定任务的领域数据增强:兼看基于大模型进行文本句子分割

老刘说NLP  · 公众号  ·  · 2024-06-26 11:37
    

文章预览

今天是2024年6月26日,星期三,北京,天气晴。 今天我们主要看两个问题,一个基于大模型进行文本句子分割的方案,这个有直接应用场景;另一个是面向领域任务的数据增强方案,关于数据工程部分。 供大家一起参考,问题都很刚需; 问题1:基于大模型进行文本句子分割的方案 文本自动切句是个很有趣且很重要的场景,我们之前有讲过modelscope中的文本分割模型。 而与段落更为细分的,便是句子分割。 传统的句子分割方法依赖于基于规则或统计的方法,这些方法通常需要依赖于标点符号等词汇特征,例如早期方法使用决策树来确定文本中的每个标点符号是否表示句子边界,这基于标点周围的语言特征。 然而,这些方法在面对缺少标点、新领域适应性差、效率不高等问题时表现不佳。 最近看到一个  《Segment Any Text: A Universal Approach for Robust, Effic ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览