README
《在会计研究中使用Python进行文本分析》中文翻译
0 简介
《Using Python For Text Analysis In Accounting Research》是一本介绍在会计研究中使用Python进行文本分析的专著。在学校过程中,我发现python文本分析相关中文资料有很多,但是python文本分析在会计研究中的应用的相关中文资料少之又少。我在阅读本书后,发现本书很好地构建了一个框架,非常适合入门学习。遂对本书进行翻译,不当之处,敬请谅解。
1 本书特点
- 介绍的文本分析的方法以及参考文献大多使用直观的基于公式的计算方法,而非基于复杂的机器学习方法。我想,这可能是在经管领域更加注意可解释性的原因。如果使用机器学习方法进行文本分析,并希望有可解释性,可以参考:https://shap.readthedocs.io/en/latest/text_examples.html
- 翻译了本书最核心的7-10章部分。因为其他部分介绍的比较粗略,有更合适更专门的教程学习。在这里简单推荐一些我认为比较不错的:Pandas:https://pandas.liuzaoqi.com/intro.html 正则:https://regexlearn.com/zh-cn/learn
- 本书分析的文本内容为英文文本。
2 资料
- 在线阅读:https://weak.notion.site/README-2a5260b7433241dfb4eaa6e6f70ca13a
- GitHub:https://github.com/SharkFin-top/PyTxtAcc_zh
- 更多内容:https://sharkfin.top/
GitHub内包含jupyter代码文件和本书英文原版。
英文版原书及代码.zip
3 全书目录
1. 引言
2. 在电脑中配置Python
- 2.1 Python包的作用
- 2.2 Anaconda软件版本
- 2.3 安装Anaconda
- 2.4 Anaconda的使用
3. Jupyter Notebook
- 3.1 案例
- JupyterLab: Jupyter Notebook的开发版(最新版)
- 如何启动JupyterLab
- 在JupyterLab中写代码
- Markdown标记语言与格式化文本代码块
4. Python编程语言简要介绍
- 4.1 基础知识
- 4.2 变量与数据类型
- 4.3 操作
- 4.4 print函数
- 4.5 控制流
- 4.6 函数
- 4.7 集合类型数据-list、tuple、dictionaries
- 4.8 处理字符串
5. 处理表数据:Pandas包
- 5.1 Pandas使用场景
- 5.2 导入import 声明
- 5.3 加载数据、导出数据
- 5.4 在pandas中查看数据
- 5.5 筛选数据
- 5.6 创建新列(字段)
- 5.7 删除列(字段)、列(字段)名重命名
- 5.8 对数据排序
- 5.9 合并数据
6 正则表达式介绍
- 6.1 查看文本中的模式
- 6.2 字符与字符集
- 6.3 Regex的定位与边界
- 6.4 模式匹配次数限定
- 6.5 分组
- 6.6 先行断言和后行断言
- 6.7 复杂文本分析任务中的正则表达式例子
7. 基于字典法的文本分析
- 7.1 字典法文本分析的优势
- 7.2 理解字典
- 7.3 识别文本中的词语与句子
- 7.4 词干化、词形还原
- 7.5 词语权重
- 7.6 基于词典法的词频统计函数
8. 量化文本复杂度
- 8.1 理解文本复杂度
- 8.2 计算文本字符长度
- 8.3 使用Fog指数测量文本可读性
- 8.4 使用BOG指数测量文本可读性
9. 句子结构与分类
- 9.1 识别前瞻性陈述forward-looking sentences
- 9.2 使用字典法做文本分类
- 9.3 识别句子的主语与宾语
- 9.4 识别命名实体
- 9.5 词性标注与命名实体识别任务
10. 测量文本相似度
- 10.1 使用相似度比较文本
- 10.2 长文本使用cosine相似度计算相似度
- 10.3 短文本使用Levenshtein距离计算相似度
- 10.4 使用word2vec词嵌入计算语义相似度
11. 识别文本中的具体信息
- 11.1 文本识别与抽取
- 11.2 案例: 从10-k filing中提取出MD&A
- 11.3 案例: 从10-k html网页文件中提取MD&A
- 11.4 从XBRL金融报告中抽取文本
12. 从网络中收集数据
- 12.1 在互联网中采集数据
- 12.2 证券交易委员会的EDGAR数据
- 12.3 网络爬虫
- 12.4 关于api接口
致谢
参考文献
4 免责
所有内容仅限用于学习和研究目的,不得用于商业或者非法用途,否则,一切后果请用户自负。