55
|
1 using Implab;
|
|
2 using System;
|
|
3 using System.Collections.Generic;
|
59
|
4 using System.IO;
|
55
|
5 using System.Linq;
|
|
6 using System.Text;
|
|
7 using System.Threading.Tasks;
|
|
8
|
|
9 namespace Implab.Parsing {
|
|
10 /// <summary>
|
|
11 /// Базовый класс для разбора потока входных символов на токены.
|
|
12 /// </summary>
|
|
13 /// <remarks>
|
|
14 /// Сканнер имеет внутри буффер с симолами входного текста, по которому перемещаются два
|
|
15 /// указателя, начала и конца токена, при перемещении искользуется ДКА для определения
|
|
16 /// конца токена и допустимости текущего символа.
|
|
17 /// </remarks>
|
59
|
18 public abstract class Scanner : Disposable {
|
55
|
19 struct ScannerConfig {
|
|
20 public DFAStateDescriptior[] states;
|
|
21 public int[] alphabetMap;
|
|
22 }
|
|
23
|
|
24 Stack<ScannerConfig> m_defs = new Stack<ScannerConfig>();
|
|
25
|
|
26 DFAStateDescriptior[] m_states;
|
|
27 int[] m_alphabetMap;
|
|
28
|
|
29 protected DFAStateDescriptior m_currentState;
|
|
30 int m_previewCode;
|
|
31
|
|
32 protected int m_tokenLen = 0;
|
|
33 protected int m_tokenOffset;
|
|
34
|
|
35 protected char[] m_buffer;
|
|
36 protected int m_bufferSize;
|
|
37 protected int m_pointer;
|
|
38
|
59
|
39 TextReader m_reader;
|
|
40 bool m_disposeReader;
|
|
41 int m_chunkSize = 1024; // 1k
|
|
42 int m_limit = 10 * 1024 * 1024; // 10Mb
|
55
|
43
|
|
44 public Scanner(CDFADefinition definition) {
|
|
45 Safe.ArgumentNotNull(definition, "definition");
|
|
46
|
|
47 m_states = definition.States;
|
|
48 m_alphabetMap = definition.Alphabet.GetTranslationMap();
|
|
49
|
|
50 Feed(new char[0]);
|
|
51 }
|
|
52
|
|
53 /// <summary>
|
|
54 /// Заполняет входными данными буффер.
|
|
55 /// </summary>
|
|
56 /// <param name="data">Данные для обработки.</param>
|
|
57 /// <remarks>Копирование данных не происходит, переданный массив используется в
|
|
58 /// качестве входного буффера.</remarks>
|
|
59 public void Feed(char[] data) {
|
|
60 Safe.ArgumentNotNull(data, "data");
|
|
61
|
|
62 Feed(data, data.Length);
|
|
63 }
|
|
64
|
|
65 /// <summary>
|
|
66 /// Заполняет буффур чтения входными данными.
|
|
67 /// </summary>
|
|
68 /// <param name="data">Данные для обработки.</param>
|
|
69 /// <param name="length">Длина данных для обработки.</param>
|
|
70 /// <remarks>Копирование данных не происходит, переданный массив используется в
|
|
71 /// качестве входного буффера.</remarks>
|
|
72 public void Feed(char[] data, int length) {
|
|
73 Safe.ArgumentNotNull(data, "data");
|
|
74 Safe.ArgumentInRange(length, 0, data.Length, "length");
|
59
|
75 AssertNotDisposed();
|
55
|
76
|
|
77 m_pointer = -1;
|
|
78 m_buffer = data;
|
|
79 m_bufferSize = length;
|
|
80 Shift();
|
|
81 }
|
|
82
|
59
|
83 public void Feed(TextReader reader, bool dispose) {
|
|
84 Safe.ArgumentNotNull(reader, "reader");
|
|
85 AssertNotDisposed();
|
|
86
|
|
87 if (m_reader != null && m_disposeReader)
|
|
88 m_reader.Dispose();
|
|
89
|
|
90 m_reader = reader;
|
|
91 m_disposeReader = dispose;
|
|
92 m_pointer = -1;
|
|
93 m_buffer = new char[m_chunkSize];
|
|
94 m_bufferSize = 0;
|
|
95 Shift();
|
|
96 }
|
|
97
|
55
|
98 /// <summary>
|
|
99 /// Получает текущий токен в виде строки.
|
|
100 /// </summary>
|
|
101 /// <returns></returns>
|
59
|
102 protected string GetTokenValue() {
|
55
|
103 return new String(m_buffer, m_tokenOffset, m_tokenLen);
|
|
104 }
|
|
105
|
|
106 /// <summary>
|
|
107 /// Метки текущего токена, которые были назначены в регулярном выражении.
|
|
108 /// </summary>
|
59
|
109 protected int[] TokenTags {
|
55
|
110 get {
|
|
111 return m_currentState.tag;
|
|
112 }
|
|
113 }
|
|
114
|
|
115 /// <summary>
|
57
|
116 /// Признак конца данных
|
|
117 /// </summary>
|
|
118 public bool EOF {
|
|
119 get {
|
|
120 return m_pointer >= m_bufferSize;
|
|
121 }
|
|
122 }
|
|
123
|
|
124 /// <summary>
|
55
|
125 /// Читает следующий токен, при этом <see cref="m_tokenOffset"/> указывает на начало токена,
|
|
126 /// <see cref="m_tokenLen"/> на длину токена, <see cref="m_buffer"/> - массив символов, в
|
|
127 /// котором находится токен.
|
|
128 /// </summary>
|
|
129 /// <returns><c>false</c> - достигнут конец данных, токен не прочитан.</returns>
|
|
130 protected bool ReadTokenInternal() {
|
|
131 if (m_pointer >= m_bufferSize)
|
|
132 return false;
|
|
133
|
|
134 m_currentState = m_states[CDFADefinition.INITIAL_STATE];
|
|
135 m_tokenLen = 0;
|
|
136 m_tokenOffset = m_pointer;
|
|
137 int nextState = CDFADefinition.UNREACHEBLE_STATE;
|
|
138 do {
|
|
139 nextState = m_currentState.transitions[m_previewCode];
|
|
140 if (nextState == CDFADefinition.UNREACHEBLE_STATE) {
|
|
141 if (m_currentState.final)
|
|
142 return true;
|
|
143 else
|
|
144 throw new ParserException(
|
|
145 String.Format(
|
|
146 "Unexpected symbol '{0}', at pos {1}",
|
|
147 m_buffer[m_pointer],
|
|
148 Position
|
|
149 )
|
|
150 );
|
|
151 } else {
|
|
152 m_currentState = m_states[nextState];
|
|
153 m_tokenLen++;
|
|
154 }
|
|
155
|
|
156 } while (Shift());
|
|
157
|
|
158 // END OF DATA
|
|
159 if (!m_currentState.final)
|
|
160 throw new ParserException("Unexpected end of data");
|
|
161
|
|
162 return true;
|
|
163 }
|
|
164
|
|
165
|
|
166 bool Shift() {
|
|
167 m_pointer++;
|
|
168
|
|
169 if (m_pointer >= m_bufferSize) {
|
60
|
170 if (!ReadNextChunk())
|
|
171 return false;
|
55
|
172 }
|
|
173
|
|
174 m_previewCode = m_alphabetMap[m_buffer[m_pointer]];
|
|
175
|
|
176 return true;
|
|
177 }
|
|
178
|
59
|
179 bool ReadNextChunk() {
|
|
180 if (m_reader == null)
|
|
181 return false;
|
|
182
|
|
183 // extend buffer if nesessary
|
|
184 if (m_pointer + m_chunkSize > m_buffer.Length) {
|
|
185 // trim unused buffer head
|
|
186 var size = m_tokenLen + m_chunkSize;
|
|
187 if (size >= m_limit)
|
|
188 throw new ParserException(String.Format("Input buffer {0} bytes limit exceeded", m_limit));
|
|
189 var temp = new char[size];
|
|
190 Array.Copy(m_buffer, m_tokenOffset, temp, 0, m_tokenLen);
|
|
191 m_pointer -= m_tokenOffset;
|
|
192 m_bufferSize -= m_tokenOffset;
|
|
193 m_tokenOffset = 0;
|
|
194 m_buffer = temp;
|
|
195 }
|
|
196
|
|
197 var read = m_reader.Read(m_buffer, m_tokenLen, m_chunkSize);
|
|
198 if (read == 0)
|
|
199 return false;
|
|
200
|
|
201 m_bufferSize += read;
|
|
202
|
|
203 return true;
|
55
|
204 }
|
|
205
|
|
206 /// <summary>
|
|
207 /// Позиция сканнера во входном буфере
|
|
208 /// </summary>
|
|
209 public int Position {
|
|
210 get {
|
|
211 return m_pointer + 1;
|
|
212 }
|
|
213 }
|
|
214
|
|
215 /// <summary>
|
|
216 /// Преключает внутренний ДКА на указанный, позволяет реализовать подобие захватывающей
|
|
217 /// группировки.
|
|
218 /// </summary>
|
|
219 /// <param name="states">Таблица состояний нового ДКА</param>
|
|
220 /// <param name="alphabet">Таблица входных символов для нового ДКА</param>
|
|
221 protected void Switch(DFAStateDescriptior[] states, int[] alphabet) {
|
|
222 Safe.ArgumentNotNull(states, "dfa");
|
|
223
|
|
224 m_defs.Push(new ScannerConfig {
|
|
225 states = m_states,
|
|
226 alphabetMap = m_alphabetMap
|
|
227 });
|
|
228
|
|
229 m_states = states;
|
|
230 m_alphabetMap = alphabet;
|
|
231
|
|
232 m_previewCode = m_alphabetMap[m_buffer[m_pointer]];
|
|
233 }
|
|
234
|
|
235 /// <summary>
|
|
236 /// Восстанавливает предыдущей ДКА сканнера.
|
|
237 /// </summary>
|
|
238 protected void Restore() {
|
|
239 if (m_defs.Count == 0)
|
|
240 throw new InvalidOperationException();
|
|
241 var prev = m_defs.Pop();
|
|
242 m_states = prev.states;
|
|
243 m_alphabetMap = prev.alphabetMap;
|
|
244 m_previewCode = m_alphabetMap[m_buffer[m_pointer]];
|
|
245 }
|
59
|
246
|
|
247 protected override void Dispose(bool disposing) {
|
|
248 if (disposing) {
|
|
249 if (m_reader != null && m_disposeReader)
|
|
250 m_reader.Dispose();
|
|
251 m_buffer = null;
|
|
252 m_bufferSize = 0;
|
|
253 m_pointer = 0;
|
|
254 m_tokenLen = 0;
|
|
255 m_tokenOffset = 0;
|
|
256 }
|
|
257 base.Dispose(disposing);
|
|
258 }
|
55
|
259 }
|
|
260 }
|